Google 스프레드시트, Gmail 및 Google 드라이브에서 Duet AI를 사용하는 방법
Google Sheets에서는 Google의 Duet AI 기능을 사용하여 데이터를 요약하고 정리할 수도 있습니다. 활성화하고 사용하는 방법은 다음과 같습니다.
ChatGPT 의 출현으로 전 세계의 개인과 기업은 이를 사용하여 일상 업무를 단순화하고 생산성을 높이고 있습니다. 콘텐츠 작성자는 이를 사용하여 작업에 대한 개요를 제시하고 프로그래머는 코드 최적화를 위해 사용합니다. 마찬가지로 데이터 과학자들은 프로젝트를 통해 보다 통찰력 있는 분석을 수행하기 위해 ChatGPT를 사용해 왔습니다.
ChatGPT는 작업을 향상시키고 광범위한 데이터 관련 질문에 대한 빠르고 정확한 답변을 찾는 데 도움이 되는 데이터 과학자를 위한 강력한 도구입니다. 워크플로를 간소화하고 분석을 보다 효율적이고 효과적으로 만들 수 있습니다.
이 기사에서는 ChatGPT가 동적 피드백과 제안을 제공하여 데이터 과학 기술을 향상시키는 방법을 살펴봅니다. 프로젝트에서 ChatGPT를 최대한 활용하는 데 도움이 되는 주요 기능, 모범 사례 및 유용한 팁을 다룹니다.
그것에 들어가자!
목차
데이터 과학을 위한 ChatGPT
ChatGPT는 데이터 과학자의 일상 업무를 지원하는 기능으로 꾸준히 인기를 얻고 있습니다. 많은 양의 데이터를 이해하고 강력한 분석을 위한 코드 스니펫을 생성할 수 있습니다.
데이터 과학자로서 ChatGPT로 작업하는 것은 프로젝트 계획, 코드 디버깅, 코드 최적화 및 데이터 마이닝과 같은 작업의 게임 체인저가 될 수 있습니다.
ChatGPT는 SQL, R 및 Python과 같은 거의 모든 프로그래밍 언어를 지원합니다. 예를 들어 올바른 SQL 코드 프롬프트를 통해 ChatGPT는 프로젝트에 대한 SQL 코드를 작성하는 데 도움을 줄 수 있습니다. 또한 Python을 번역하고 정규식을 설명 하고 단위 테스트를 수행할 수 있습니다.
ChatGPT는 다음과 같은 데이터 과학 작업에 유용합니다.
광범위한 데이터 세트 분석 및 요약
올바른 데이터 과학 프롬프트로 콘텐츠 생성
데이터에서 인사이트 생성
데이터 전처리 지원
일반적인 작업에 대한 코드 예제 제공
생산성을 높이고 싶다면 ChatGPT는 필수 도구입니다. 소프트웨어 개발자, 코드 번역기, 코드 옵티마이저, 데이터 과학 경력 코치 및 데이터 과학 강사가 하나의 패키지에 포함되어 있습니다!
다음 섹션에서는 ChatGPT의 기본 사항을 살펴보겠습니다. 이를 통해 AI 챗봇의 강점과 약점에 대한 아이디어를 얻을 수 있습니다.
ChatGPT의 기초 – 3가지 사용 방법
이 섹션에서는 ChatGPT를 데이터 과학자에게 귀중한 도구로 만들어 주는 핵심 기능과 기능에 대해 알아봅니다.
이러한 기본 사항을 이해하면 ChatGPT가 다양한 데이터 관련 작업을 지원하는 방법에 대한 통찰력을 얻을 수 있습니다.
1. 텍스트 처리
ChatGPT는 텍스트 데이터와 함께 작동하여 사람과 같은 응답을 생성합니다. 데이터 과학자는 ChatGPT의 기능을 활용하여 대규모 데이터 세트를 분석하고 그래프 요구 사항을 설명하며 인사이트를 생성할 수 있습니다.
텍스트 처리의 몇 가지 중요한 기능은 다음과 같습니다.
토큰화 : 입력 텍스트를 청크 또는 토큰으로 분해하여 ChatGPT가 처리합니다.
전처리 : 불용어, 형태소 분석 및 기타 텍스트 정리 기술을 제거하면 분석 품질을 향상시킬 수 있습니다.
텍스트 생성 : 채팅 모델을 사용하여 데이터 또는 특정 프롬프트를 기반으로 텍스트를 생성합니다.
2. 프롬프트 및 응답
좋은 프롬프트는 좋은 응답을 제공합니다. 프롬프트는 ChatGPT가 의미 있는 정보를 제공하도록 안내하는 데 필수적입니다. 데이터 및 코드로 작업할 때 원하는 결과를 얻기 위해 자세한 프롬프트를 사용해야 합니다.
좋은 프롬프트를 작성하기 위한 몇 가지 팁을 아래에 나열했습니다.
메시지를 구체적으로 작성하세요: 명확하고 자세한 메시지는 ChatGPT가 요구 사항을 더 잘 이해하는 데 도움이 됩니다. 예를 들어 Python 개념에 대한 코드 설명자로 사용하려면 배우고 싶은 모든 것을 지정하는 Python 프롬프트를 작성하십시오.
프롬프트에 컨텍스트 포함: 컨텍스트 정보는 ChatGPT가 정확한 응답을 생성하는 데 도움이 됩니다.
반복적으로 프롬프트 수정: 생성된 응답이 만족스럽지 않으면 피드백을 제공하고 다시 시도하십시오.
데이터 과학자로서 ChatGPT와 함께 사용할 수 있는 프롬프트의 예 :
"Provide a brief explanation of k-means clustering algorithm."
"Generate Python code to open a CSV file and display its contents using pandas library."
"Compare linear regression and logistic regression."
3. 알고리즘 개요
ChatGPT는 GPT-3.5 아키텍처를 기반으로 합니다. OpenAI 에서 개발한 고급 언어 모델로 딥 러닝 알고리즘을 사용하여 인간과 같은 반응을 생성합니다.
알아야 할 ChatGPT의 일부 핵심 구성 요소는 다음과 같습니다.
딥 러닝 : ChatGPT는 신경망을 사용하여 텍스트를 처리하고 이해합니다. 이러한 신경망을 통해 관련 응답을 생성할 수 있습니다.
교육 : 이 모델은 책, 기사 및 웹 사이트를 포함한 다양한 소스의 방대한 양의 텍스트 데이터에 대해 교육됩니다.
다국어 지원 : 광범위한 교육을 받은 결과 ChatGPT는 여러 언어로 된 텍스트를 이해하고 생성할 수 있습니다.
다음 섹션에서는 데이터 과학을 위한 ChatGPT의 구체적인 예와 사용 사례를 살펴보겠습니다.
데이터 과학자를 위한 ChatGPT의 4가지 사용 사례?
데이터 과학자라면 프로젝트에서 여러 목적으로 ChatGPT를 사용할 수 있습니다. 각 사용 사례가 최소한의 노력으로 코드를 작성하는 데 도움이 된다는 것을 알게 될 것입니다.
특히 데이터 과학자를 위한 ChatGPT의 다음 사용 사례를 살펴보겠습니다.
전처리 및 기능 엔지니어링에 ChatGPT 사용
데이터 분석 및 데이터 시각화를 위한 ChatGPT 사용
그것에 들어가자!
1. 전처리 및 기능 엔지니어링
데이터를 분석하려는 경우 전처리 및 기능 엔지니어링은 모델링을 위한 데이터를 준비하는 데 중요한 역할을 합니다.
데이터 분석 워크플로우의 이 단계는 모델에 적합하도록 데이터를 변경해야 하는 데이터 정리 및 변환과 함께 진행됩니다.
작업을 수행할 때 주로 다음 두 가지 측면을 살펴봅니다.
결측값 및 범주형 변수 처리
숫자 값 스케일링
각각을 개별적으로 살펴보고 ChatGPT가 어떻게 도움이 되는지 알아보겠습니다.
1. 누락된 값 처리
먼저 데이터 세트에 누락된 값이 있는지 평가해야 합니다.
누락된 데이터를 처리하기 위한 다음과 같은 다양한 전략이 있습니다.
누락된 값이 있는 레코드 제거
평균, 중앙값 또는 최빈값으로 결측값 대치
기계 학습 모델을 사용하여 누락된 값 예측
ChatGPT를 사용하여 누락된 값을 처리하기 위한 코드를 생성하려면 명령 프롬프트에 다음 Python 코드 프롬프트를 입력할 수 있습니다.
나는 당신이 데이터 사이언티스트로 활동하기를 바랍니다. Pandas 라이브러리를 사용하여 'data.csv'라는 CSV 파일을 읽고, 데이터에서 누락된 값이 있는지 확인한 다음 각 열의 평균값을 사용하여 누락된 값을 채우는 Python 코드를 작성합니다.
이 프롬프트를 ChatGPT에 입력하면 코드 주석을 포함하여 다음 Python 코드가 작성됩니다.
import pandas as pd
# Load data
data = pd.read_csv('data.csv')
# Check for missing values
missing_values = data.isnull().sum()
# Impute missing values using the mean
data.fillna(data.mean(), inplace=True)
데이터 세트에서 위의 코드를 확인해 봅시다!
먼저 pandas 라이브러리를 사용하여 데이터 세트를 Jupyter Notebook으로 가져옵니다.
다음으로 ChatGPT에서 제공하는 코드로 누락된 값을 확인해보자.
데이터 세트에 일부 누락된 값이 있음을 알 수 있습니다.
누락된 값을 처리하기 위해 ChatGPT에서 제공하는 코드와 함께 평균을 사용하여 누락된 값을 대치할 수 있습니다.
위의 이미지에서 데이터 세트에 누락된 값이 더 이상 없음을 확인할 수 있습니다.
2. 범주형 변수 다루기
범주형 변수를 처리하는 것은 전처리 중 또 다른 중요한 단계입니다. 모델을 구현하고 모델의 결과를 사용하기 전에 대상 변수를 기계 학습 알고리즘이 이해할 수 있는 숫자 형식으로 인코딩해야 합니다.
이렇게 하려면 다음 방법 중 하나를 사용할 수 있습니다.
레이블 인코딩 : 각 범주에 고유한 정수를 할당합니다.
원-핫 인코딩 : 카테고리별 바이너리 컬럼 생성
레이블 인코딩에서는 각 범주에 고유한 정수를 할당합니다. 레이블 인코딩을 위한 코드 작성에 ChatGPT를 사용할 수 있습니다 . 다음 프롬프트는 레이블 인코딩에 필요한 코드를 제공합니다.
데이터 과학 강사로 활동하고 '이름', '나이', '성별' 및 '직업' 열이 있는 DataFrame을 생성하는 pandas 및 sklearn 라이브러리를 사용하여 Python 스크립트를 작성합니다. 그런 다음 레이블 인코딩을 사용하여 'Profession' 열을 변환합니다. 그런 다음 'Profession' 열에 대해 원-핫 인코딩을 수행합니다.
ChatGPT에 입력된 위 코드는 다음 코드를 제공합니다.
import pandas as pd
from sklearn.preprocessing import LabelEncoder
# Label encoding for the 'Profession' column
encoder = LabelEncoder()
data['Profession'] = encoder.fit_transform(data['Profession'])
# One-hot encoding for the 'Profession' column
data = pd.get_dummies(data, columns=['Profession'])
데이터 세트에서 이 코드를 확인하고 작동하는지 확인해 봅시다!
레이블 및 원-핫 인코딩을 수행하려는 다음 데이터 세트가 있다고 가정합니다.
우리는 직업이 범주형 변수임을 알 수 있습니다. 따라서 기계 학습 모델을 구현하기 전에 이 변수를 인코딩해야 합니다. 인코딩을 위해 ChatGPT에서 제공하는 코드를 사용할 수 있습니다.
데이터 세트의 각 직업 범주에 고유한 정수를 할당했습니다.
레이블 인코딩을 수행하기 위해 ChatGPT에서 제공하는 코드를 사용할 수 있습니다.
반면 원-핫 인코딩은 아래 이미지와 같이 각 직업 범주에 대한 이진 변수를 생성합니다.
위의 예를 통해 데이터 과학 프로젝트와 함께 ChatGPT를 사용하는 방법을 이해할 수 있습니다.
기계 학습 모델을 구현하기 전에 수행해야 하는 또 다른 일반적인 단계는 인코딩 및 확장이므로 ChatGPt를 사용하여 데이터 과학자의 인코딩 및 확장을 지원하는 방법을 살펴보겠습니다.
3. 수치변수 스케일링
종종 데이터로 작업할 때 너무 작거나 큰 숫자를 접할 수 있습니다. 이러한 경우 숫자 변수의 크기를 조정해야 합니다. 스케일링 방법을 사용하면 숫자 변수를 조정하여 균일한 스케일을 가질 수 있습니다.
숫자 변수를 스케일링하는 방법에는 두 가지가 있습니다.
최소-최대 스케일링 : 0과 1 사이의 값을 스케일링합니다.
표준 스케일링 : 표준 편차가 1인 평균을 중심으로 데이터를 중앙에 배치합니다.
위의 두 가지 수치 조정 방법을 데이터 세트에 구현해 보겠습니다.
"Age" 열이 표준 스케일링 및 최소-최대 스케일링을 위한 숫자 변수라고 가정합니다. 다음 프롬프트를 사용하여 위의 두 배율 조정 기술에 대한 코드를 생성할 수 있습니다.
소프트웨어 개발자 역할을 하고 DataFrame의 'Age' 열에 대한 표준 스케일링 및 최소-최대 스케일링을 추가하여 이전 Python 스크립트를 확장합니다. 표준 스케일링에는 sklearn의 StandardScaler를 사용하고 최소-최대 스케일링에는 MinMaxScaler를 사용하십시오. 표준 스케일링을 먼저 적용한 다음 최소-최대 스케일링을 적용합니다.
ChatGPT는 다음과 유사한 코드를 제공합니다.
from sklearn.preprocessing import StandardScaler, MinMaxScaler
# Standard scaling for the 'Age' column
std_scaler = StandardScaler()
data['Age'] = std_scaler.fit_transform(data[['Age']])
# Min-max scaling for the 'Age' column
min_max_scaler = MinMaxScaler()
data['Age'] = min_max_scaler.fit_transform(data[['Age']])
describe 데이터 세트에 이 코드를 구현해 보겠습니다. 먼저 아래와 같이 표준 스케일링 기술을 사용하여 연령 변수를 스케일링합니다.
다음으로 min-max 스케일링 기술을 사용하여 ChatGPT에서 제공하는 코드로 연령 변수를 스케일링합니다.
이제 기능 엔지니어링을 위한 데이터가 준비되었습니다. 이제 데이터 세트의 변수 간의 관계를 탐색하여 새 기능을 생성하고 모델 성능을 개선할 수 있습니다.
2. 데이터 분석 및 시각화를 위한 ChatGPT 사용
데이터 과학자로서 탐색적 데이터 분석 (EDA)을 수행하여 데이터 과학 프로젝트를 시작하는 것이 중요합니다. 이 단계에서는 데이터를 자세히 살펴보고 정리 및 전처리하여 추가 분석을 준비합니다.
ChatGPT와 같은 언어 모델을 활용하면 EDA 중에 생산성을 크게 높일 수 있습니다. ChatGPT를 사용하면 pandas DataFrame 생성 또는 요약 통계 생성과 같은 기본 작업을 자동화할 수 있습니다. 이를 통해 보다 복잡한 작업에 집중할 수 있습니다.
데이터 탐색 단계에서 데이터 과학자는 ChatGPT를 사용하여 다음과 같은 다양한 작업에 대한 코드 스니펫을 생성할 수 있습니다.
pandas DataFrame에 데이터 로드
누락된 값 시각화 및 적절하게 처리
히스토그램, 산점도 또는 기타 유형의 플롯을 생성하여 변수 분포 및 관계 탐색
위의 각 작업의 예를 살펴보겠습니다!
Age, Salary, Experience, Job_Role 열이 있는 데이터 세트에서 EDA를 수행합니다.
pandas DataFrame에 로드하려는 데이터 세트가 있다고 가정합니다. 다음 데이터 세트 프롬프트를 사용할 수 있습니다.
데이터 과학자 역할을 하고 Python 코드를 작성하여 Seaborn 라이브러리의 히트맵을 사용하여 데이터 세트에서 누락된 값을 시각화합니다. 그런 다음 누락된 값을 숫자 열의 경우 평균값으로, 범주 열의 경우 가장 빈도가 높은 범주로 대체하여 처리합니다.
ChatGPT는 다음과 유사한 코드를 제공합니다.
import seaborn as sns
import matplotlib.pyplot as plt
# Visualizing missing values
plt.figure(figsize=(12, 8))
sns.heatmap(data.isnull(), cbar=False, cmap='viridis')
plt.show()
# Handling missing values - imputing with mean value (for numeric columns)
data.fillna(data.mean(), inplace=True)
# For categorical columns, we can fill the missing values with the most frequent category
data['Job_Role'].fillna(data['Job_Role'].mode()[0], inplace=True)
다음 pandas 코드는 먼저 아래와 같이 데이터 세트에서 누락된 값을 시각화합니다.
그런 다음 누락된 값을 평균값으로 대치하여 처리합니다.
Python에서 누락된 값을 처리하는 방법에 대해 자세히 알아보려면 다음 비디오를 확인하세요.
데이터를 시각화하기 위해 ChatGPT에 다음 프롬프트를 제공할 수 있습니다.
데이터 과학자 역할을 하고 Python 스크립트를 작성하여 matplotlib를 사용하여 데이터 세트의 'Age' 열에 대한 히스토그램을 생성합니다.
ChatGPT는 다음과 유사한 코드를 제공합니다.
data['Age'].hist(bins=30)
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.show()
위의 코드는 데이터 세트의 연령 열을 시각화합니다.
마지막 생각들
ChatGPT는 데이터 과학자에게 큰 가치를 제공합니다. 첫째, 시간이 절약됩니다. 살펴본 바와 같이 데이터 로드, 누락된 값 처리 또는 플롯 생성과 같은 작업을 위한 코드를 빠르게 생성할 수 있습니다. 즉, 코딩 세부 사항뿐만 아니라 프로젝트의 더 큰 그림에 집중할 수 있습니다.
둘째, 사용하기 쉽습니다. ChatGPT를 최대한 활용하는 비결은 즉각적인 엔지니어링을 통해 올바른 질문을 하는 방법을 배우는 것입니다. 연습을 하다 보면 프롬프트를 구성하는 능력이 향상되어 ChatGPT를 훨씬 더 유용한 도구로 만들 수 있습니다.
ChatGPT는 데이터 과학 여정의 강력한 도우미이지만 프로젝트 수행을 위해 ChatGPT에 전적으로 의존해서는 안 됩니다. 대신, 그것을 조수로 사용하고 시간이 지남에 따라 기술 세트가 성장할 수 있도록 함께 배우십시오!
Google Sheets에서는 Google의 Duet AI 기능을 사용하여 데이터를 요약하고 정리할 수도 있습니다. 활성화하고 사용하는 방법은 다음과 같습니다.
Microsoft는 텍스트에서 이미지를 생성하는 Bing AI를 도입했습니다. Bing Image Creator를 사용하여 상상을 현실로 만드는 방법을 알아보세요.
앱에서 사용할 OpenAI API 키를 생성하는 방법을 찾고 계십니까? 이 기사를 읽고 동일한 내용을 모두 알아보세요!
Android 기기에서 Google Assistant에서 Gemini AI 앱으로 전환하는 방법을 알아보고 새로운 가능성을 탐색해 보세요.
Snapchat 내 AI가 작동하지 않거나 표시되지 않나요? Snapchat Android 및 iOS 앱에서 이 문제를 해결하는 데 도움이 되는 8가지 방법을 살펴보겠습니다.
Google Slides에는 텍스트 프롬프트만 제공하여 프레젠테이션에 이미지를 추가할 수 있는 Duet AI 기능이 도입되었습니다. 사용 방법은 다음과 같습니다.
Google의 새로운 검색용 Generative AI 기능에 먼저 액세스하려면 Search Labs 웹사이트를 열고 로그인한 후 대기자 명단 가입을 클릭하세요.
검색에서 Google AI 결과를 비활성화하려면 Search Labs 페이지를 열고 SGE 및 코드 팁 옵션을 끄세요. 방법은 다음과 같습니다.
ChatGPT와 함께 Bing AI 사용을 시작하려면 액세스 권한을 얻은 후 Bing을 열고 검색을 수행한 후 Chat을 클릭하고 인간과 유사한 복잡한 질문을 하세요.
Google Bard를 설치하려면 Chrome > 맞춤설정 및 제어 > 추가 도구 메뉴 > 바로가기 만들기를 엽니다. Windows 11의 Edge에서 추가할 수도 있습니다.