ChatGPT dla analityków danych: uwalnianie spostrzeżeń opartych na sztucznej inteligencji

Wraz z pojawieniem się ChatGPT osoby prywatne i firmy na całym świecie używają go do upraszczania codziennych zadań i zwiększania produktywności. Twórcy treści używają go do tworzenia konspektów swoich zadań, a programiści używają go do optymalizacji kodu. Podobnie analitycy danych używają ChatGPT do przeprowadzania bardziej wnikliwych analiz w swoich projektach.

ChatGPT to potężne narzędzie dla analityków danych, które może usprawnić Twoją pracę i pomóc w znalezieniu szybkich, dokładnych odpowiedzi na szeroki zakres pytań związanych z danymi. Może usprawnić przepływy pracy i sprawić, że analizy będą wydajniejsze i skuteczniejsze.

ChatGPT dla analityków danych: uwalnianie spostrzeżeń opartych na sztucznej inteligencji

W tym artykule zbadamy, w jaki sposób ChatGPT może podnieść Twoje umiejętności w zakresie analizy danych, dostarczając dynamiczne informacje zwrotne i sugestie. Omówimy kluczowe funkcje, najlepsze praktyki i cenne wskazówki, które pomogą Ci w pełni wykorzystać ChatGPT w Twoich projektach.

Wejdźmy w to!

Spis treści

ChatGPT dla analityki danych

ChatGPT stale zyskuje na popularności dzięki swojej zdolności do wspomagania analityków danych w ich codziennych zadaniach. Może zrozumieć duże ilości danych i generować fragmenty kodu na potrzeby solidnych analiz.

ChatGPT dla analityków danych: uwalnianie spostrzeżeń opartych na sztucznej inteligencji

Jako naukowiec zajmujący się danymi, praca z ChatGPT może zmienić reguły gry w zadaniach takich jak planowanie projektów, debugowanie kodu, optymalizacja kodu i eksploracja danych.

ChatGPT oferuje wsparcie dla prawie wszystkich dostępnych języków programowania, takich jak SQL, R i Python. Na przykład, poprzez poprawny monit o kod SQL, ChatGPT może pomóc Ci napisać kod SQL dla Twoich projektów. Może również tłumaczyć język Python, opisywać wyrażenia regularne i przeprowadzać testy jednostkowe.

Przekonasz się, że ChatGPT jest pomocny w przypadku następujących zadań związanych z nauką o danych:

  • Analizowanie i podsumowywanie obszernych zbiorów danych

  • Tworzenie treści z odpowiednimi monitami nauki o danych

  • Generowanie spostrzeżeń z danych

  • Pomoc przy wstępnej obróbce danych

  • Dostarczanie przykładów kodu dla typowych zadań

Jeśli chcesz zwiększyć swoją produktywność, ChatGPT to narzędzie, które musisz mieć. Jest programistą, tłumaczem kodu, optymalizatorem kodu, trenerem kariery data science i instruktorem data science w jednym pakiecie!

W następnej sekcji omówimy podstawy ChatGPT. To da ci wyobrażenie o mocnych i słabych stronach chatbota AI.

Podstawy ChatGPT – 3 sposoby korzystania z niego

W tej sekcji odkryjesz podstawowe możliwości i funkcje ChatGPT, które czynią z niego nieocenione narzędzie dla analityków danych.

Zrozumienie tych podstaw da Ci wgląd w to, jak ChatGPT może pomóc Ci w różnych zadaniach związanych z danymi.

ChatGPT dla analityków danych: uwalnianie spostrzeżeń opartych na sztucznej inteligencji

1. Obsługa tekstu

ChatGPT współpracuje z danymi tekstowymi, aby tworzyć odpowiedzi podobne do ludzkich. Jako analityk danych możesz wykorzystać moc ChatGPT do analizowania dużych zbiorów danych, opisywania wymagań dotyczących wykresów i generowania spostrzeżeń.

ChatGPT dla analityków danych: uwalnianie spostrzeżeń opartych na sztucznej inteligencji

Niektóre ważne funkcje obsługi tekstu obejmują:

  • Tokenizacja : Podziel tekst wejściowy na fragmenty lub tokeny, które następnie przetwarza ChatGPT.

  • Przetwarzanie wstępne : usuwanie słów pomijanych, stemplowanie i inne techniki oczyszczania tekstu mogą poprawić jakość analizy.

  • Generowanie tekstu : Użyj modelu czatu, aby wygenerować tekst na podstawie swoich danych lub określonych monitów.

2. Podpowiedzi i odpowiedzi

Dobre podpowiedzi dają dobre odpowiedzi. Podpowiedzi są niezbędne w kierowaniu ChatGPT w celu dostarczenia istotnych informacji. Podczas pracy z danymi i kodem upewnij się, że używasz szczegółowych monitów, aby uzyskać pożądane wyniki.

ChatGPT dla analityków danych: uwalnianie spostrzeżeń opartych na sztucznej inteligencji

Poniżej wymieniliśmy kilka wskazówek dotyczących pisania dobrych podpowiedzi:

  • Bądź konkretny w swoich monitach: jasne i szczegółowe monity pomagają ChatGPT lepiej zrozumieć Twoje wymagania. Na przykład, jeśli chcesz użyć go jako objaśnienia kodu dla koncepcji Pythona, napisz zachętę Pythona, która określa wszystko, czego chcesz się nauczyć.

  • Uwzględnij kontekst w monicie: Informacje kontekstowe pomagają ChatGPT generować dokładne odpowiedzi.

  • Iteracyjnie udoskonal swój monit: jeśli wygenerowana odpowiedź nie jest zadowalająca, przekaż opinię i spróbuj ponownie.

Przykłady monitów, których możesz użyć w ChatGPT jako analityk danych:

"Provide a brief explanation of k-means clustering algorithm."

"Generate Python code to open a CSV file and display its contents using pandas library."

"Compare linear regression and logistic regression."

3. Przegląd algorytmu

ChatGPT jest zbudowany na architekturze GPT-3.5. Jest to zaawansowany model języka opracowany przez OpenAI , który wykorzystuje algorytmy głębokiego uczenia się do generowania odpowiedzi podobnych do ludzkich.

ChatGPT dla analityków danych: uwalnianie spostrzeżeń opartych na sztucznej inteligencji

Niektóre podstawowe elementy ChatGPT, o których powinieneś wiedzieć, obejmują:

  • Głębokie uczenie się : ChatGPT wykorzystuje sieci neuronowe do przetwarzania i rozumienia tekstu. Te sieci neuronowe umożliwiają generowanie odpowiednich odpowiedzi.

  • Uczenie : model jest szkolony na ogromnych ilościach danych tekstowych z różnych źródeł, w tym książek, artykułów i witryn internetowych.

  • Obsługa wielu języków : w wyniku szeroko zakrojonych szkoleń ChatGPT może rozumieć i generować tekst w wielu językach.

W następnej sekcji przyjrzymy się konkretnym przykładom i przypadkom użycia ChatGPT do analizy danych.

4 Przypadki użycia ChatGPT dla analityków danych?

Jeśli jesteś naukowcem danych, możesz używać ChatGPT do kilku celów w swoich projektach. Przekonasz się, że każdy z przypadków użycia pomoże Ci napisać kod przy najmniejszym wysiłku.

W szczególności przyjrzymy się następującym przypadkom użycia ChatGPT dla analityka danych:

  1. Używanie ChatGPT do wstępnego przetwarzania i inżynierii funkcji

  2. Wykorzystanie ChatGPT do analizy i wizualizacji danych

Wejdźmy w to!

1. Wstępne przetwarzanie i inżynieria cech

Jeśli chcesz analizować dane, wstępne przetwarzanie i inżynieria funkcji odgrywają kluczową rolę w przygotowaniu danych do modelowania.

Ten etap przepływu pracy związanego z analizą danych idzie w parze z czyszczeniem i transformacją danych, w których należy wprowadzić zmiany w danych, aby były odpowiednie dla modelu.

Podczas wykonywania zadań zwracamy uwagę głównie na dwa aspekty:

  1. Obsługa braków danych i zmiennych kategorycznych

  2. Skalowanie wartości liczbowych

Przyjrzyjmy się każdemu z osobna i zobaczmy, jak ChatGPT może pomóc.

1. Obsługa brakujących wartości

Najpierw musisz ocenić obecność brakujących wartości w zbiorze danych.

Istnieją różne strategie radzenia sobie z brakującymi danymi, w tym:

  • Usuwanie rekordów z brakującymi wartościami

  • Podpisywanie braków danych za pomocą średniej, mediany lub trybu

  • Używanie modelu uczenia maszynowego do przewidywania brakujących wartości

Aby wygenerować kod do obsługi brakujących wartości przy użyciu ChatGPT, możesz wprowadzić następujący monit o kod Pythona w wierszu polecenia:

Chcę, żebyś działał jako naukowiec danych. Napisz kod w języku Python, który używa biblioteki Pandas do odczytywania pliku CSV o nazwie „data.csv”, sprawdza brakujące wartości w danych, a następnie uzupełnia brakujące wartości, korzystając ze średniej wartości odpowiedniej kolumny.

Gdy wpiszesz ten monit w ChatGPT, napisze dla Ciebie następujący kod Pythona , w tym komentarze do kodu:

import pandas as pd

# Load data
data = pd.read_csv('data.csv')

# Check for missing values
missing_values = data.isnull().sum()

# Impute missing values using the mean
data.fillna(data.mean(), inplace=True)

Sprawdźmy powyższy kod na zbiorze danych!

Najpierw zaimportujemy zestaw danych do Jupyter Notebook przy użyciu biblioteki pandas.

ChatGPT dla analityków danych: uwalnianie spostrzeżeń opartych na sztucznej inteligencji

Następnie sprawdźmy brakujące wartości za pomocą kodu dostarczonego przez ChatGPT.

ChatGPT dla analityków danych: uwalnianie spostrzeżeń opartych na sztucznej inteligencji

Widzimy, że w naszym zbiorze danych brakuje pewnych wartości.

Aby obsłużyć brakujące wartości, możemy użyć imputacji brakujących wartości przy użyciu średniej z kodem dostarczonym przez ChatGPT.

ChatGPT dla analityków danych: uwalnianie spostrzeżeń opartych na sztucznej inteligencji

Na powyższym obrazku widać, że w naszym zbiorze danych nie ma już żadnych brakujących wartości.

2. Radzenie sobie ze zmiennymi kategorialnymi

Radzenie sobie ze zmiennymi kategorialnymi to kolejny ważny krok podczas przetwarzania wstępnego. Przed zaimplementowaniem modelu i użyciem wyników modelu należy zakodować zmienną docelową w formacie liczbowym zrozumiałym dla algorytmów uczenia maszynowego.

Aby to zrobić, możesz użyć jednej z następujących metod:

  • Kodowanie etykiety : Przypisuje unikatową liczbę całkowitą do każdej kategorii

  • Jednokrotne kodowanie : tworzy kolumny binarne dla każdej kategorii

W kodowaniu etykiet każdej kategorii przypisujesz unikalną liczbę całkowitą. Możesz użyć ChatGPT do pisania kodu do kodowania etykiet. Poniższy monit wyświetli wymagany kod do kodowania etykiet:

Działaj jako instruktor nauki o danych i napisz skrypt w języku Python przy użyciu bibliotek pandas i sklearn, które tworzą DataFrame z kolumnami „Imię”, „Wiek”, „Płeć” i „Zawód”. Następnie użyj kodowania etykiet, aby przekształcić kolumnę „Zawód”. Następnie wykonaj jednokrotne kodowanie w kolumnie „Zawód”.

Powyższy kod po wprowadzeniu do ChatGPT da ci następujący kod:

import pandas as pd
from sklearn.preprocessing import LabelEncoder

# Label encoding for the 'Profession' column
encoder = LabelEncoder()
data['Profession'] = encoder.fit_transform(data['Profession'])

# One-hot encoding for the 'Profession' column
data = pd.get_dummies(data, columns=['Profession'])

Sprawdźmy ten kod na zbiorze danych i zobaczmy, czy działa!

Załóżmy, że mamy następujący zestaw danych, na którym chcemy wykonać kodowanie etykiet i kodowania na gorąco:

ChatGPT dla analityków danych: uwalnianie spostrzeżeń opartych na sztucznej inteligencji

Widzimy, że Zawód jest zmienną kategoryczną; w związku z tym musimy zakodować tę zmienną przed wdrożeniem modelu uczenia maszynowego. Do kodowania możemy użyć kodu dostarczonego przez ChatGPT.

Przypisaliśmy unikalną liczbę całkowitą do każdej z kategorii zawodów w naszym zbiorze danych.

Aby wykonać kodowanie etykiet, możemy użyć kodu dostarczonego przez ChatGPT:

ChatGPT dla analityków danych: uwalnianie spostrzeżeń opartych na sztucznej inteligencji

Z drugiej strony kodowanie typu one-hot tworzy zmienne binarne dla każdej kategorii profesji, jak pokazano na poniższym obrazku:

ChatGPT dla analityków danych: uwalnianie spostrzeżeń opartych na sztucznej inteligencji

Powyższe przykłady powinny dać ci zrozumienie używania ChatGPT wraz z twoimi projektami data science.

Innym częstym krokiem, który musimy wykonać przed wdrożeniem modelu uczenia maszynowego, jest kodowanie i skalowanie, więc przyjrzyjmy się, jak możemy użyć ChatGPt, aby pomóc analitykowi danych w kodowaniu i skalowaniu.

3. Skalowanie zmiennych numerycznych

Często podczas pracy z danymi można natknąć się na liczby, które są zbyt małe lub zbyt duże. W takich przypadkach będziesz musiał przeskalować swoje zmienne numeryczne. Dzięki metodom skalowania można dostosować zmienne numeryczne, aby uzyskać jednolitą skalę.

Istnieją dwa sposoby skalowania zmiennych numerycznych:

  • Skalowanie min-maks : Skaluje wartości od 0 do 1

  • Skalowanie standardowe : wyśrodkowuje dane wokół średniej z odchyleniem standardowym równym 1

Zaimplementujmy powyższe dwie numeryczne metody skalowania na zbiorze danych.

Załóżmy, że kolumna „Wiek” jest naszą zmienną numeryczną dla standardowego skalowania i skalowania min-max. Możesz użyć następującego monitu, aby wygenerować kod dla powyższych dwóch technik skalowania.

Działaj jako programista i rozszerz poprzedni skrypt Pythona, dodając skalowanie standardowe i skalowanie min-max dla kolumny „Wiek” w DataFrame. Użyj StandardScaler sklearn do skalowania standardowego i MinMaxScaler do skalowania min-max. Najpierw zastosuj skalowanie standardowe, a następnie skalowanie min-max.

ChatGPT wyświetli kod podobny do następującego:

from sklearn.preprocessing import StandardScaler, MinMaxScaler

# Standard scaling for the 'Age' column
std_scaler = StandardScaler()
data['Age'] = std_scaler.fit_transform(data[['Age']])

# Min-max scaling for the 'Age' column
min_max_scaler = MinMaxScaler()
data['Age'] = min_max_scaler.fit_transform(data[['Age']])

Zaimplementujmy ten kod w naszym zestawie danych opisu. Najpierw przeskalujemy naszą zmienną wieku za pomocą standardowej techniki skalowania, jak pokazano poniżej:

ChatGPT dla analityków danych: uwalnianie spostrzeżeń opartych na sztucznej inteligencji

Następnie użyjemy techniki skalowania min-max, aby przeskalować naszą zmienną wieku za pomocą kodu podanego przez ChatGPT:

ChatGPT dla analityków danych: uwalnianie spostrzeżeń opartych na sztucznej inteligencji

Teraz Twoje dane są gotowe do inżynierii funkcji. Możesz teraz badać relacje między zmiennymi w zbiorze danych, aby tworzyć nowe funkcje i poprawiać wydajność modelu.

2. Używanie ChatGPT do analizy i wizualizacji danych

Dla analityka danych bardzo ważne jest rozpoczęcie projektów związanych z nauką o danych od wykonania eksploracyjnej analizy danych (EDA). Na tym etapie zagłębisz się w swoje dane, oczyszczając je i wstępnie przetwarzając, aby przygotować się do dalszej analizy.

Wykorzystanie modelu językowego, takiego jak ChatGPT, może znacznie zwiększyć produktywność podczas EDA. Dzięki ChatGPT możesz zautomatyzować podstawowe zadania, takie jak tworzenie pandy DataFrame lub generowanie podsumowujących statystyk. Pozwala to skupić się na bardziej złożonych zadaniach.

Podczas fazy eksploracji danych analityk danych może użyć ChatGPT do wygenerowania fragmentów kodu do różnych zadań, takich jak:

  • Ładowanie danych do Pandas DataFrame

  • Wizualizacja brakujących wartości i odpowiednie postępowanie z nimi

  • Tworzenie histogramów, wykresów rozrzutu lub innych rodzajów wykresów w celu zbadania rozkładów zmiennych i relacji

Spójrzmy na przykłady każdego z powyższych zadań!

Zrobimy EDA na zbiorze danych z następującymi kolumnami: Wiek, Wynagrodzenie, Doświadczenie, Rola_zadania

ChatGPT dla analityków danych: uwalnianie spostrzeżeń opartych na sztucznej inteligencji

Załóżmy, że masz zestaw danych, który chcesz załadować do swojej pandy DataFrame. Możesz użyć następującego monitu dotyczącego zestawu danych:

Działaj jako analityk danych i napisz kod w języku Python, aby wizualizować brakujące wartości w zbiorze danych, korzystając z mapy cieplnej z biblioteki Seaborn. Następnie obsłuż brakujące wartości, zastępując je wartością średnią dla kolumn liczbowych i najczęstszą kategorią dla kolumn kategorialnych.

ChatGPT wyświetli kod podobny do następującego:

import seaborn as sns
import matplotlib.pyplot as plt

# Visualizing missing values
plt.figure(figsize=(12, 8))
sns.heatmap(data.isnull(), cbar=False, cmap='viridis')
plt.show()

# Handling missing values - imputing with mean value (for numeric columns)
data.fillna(data.mean(), inplace=True)
# For categorical columns, we can fill the missing values with the most frequent category
data['Job_Role'].fillna(data['Job_Role'].mode()[0], inplace=True)

Poniższy kod pandy najpierw zwizualizuje brakujące wartości w twoim zbiorze danych, jak pokazano poniżej:

ChatGPT dla analityków danych: uwalnianie spostrzeżeń opartych na sztucznej inteligencji

Następnie obsłuży brakujące wartości, przypisując je wartościom średnim.

ChatGPT dla analityków danych: uwalnianie spostrzeżeń opartych na sztucznej inteligencji

Aby dowiedzieć się więcej o obsłudze brakujących wartości w Pythonie, obejrzyj poniższy film:

Aby zwizualizować dane, możesz wysłać następujący monit do ChatGPT:

Działaj jako analityk danych i napisz skrypt w języku Python, aby utworzyć histogram dla kolumny „Wiek” w zbiorze danych za pomocą matplotlib

ChatGPT wyświetli kod podobny do następującego:

data['Age'].hist(bins=30)
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.show()

Powyższy kod zwizualizuje kolumnę wieku w zbiorze danych.

ChatGPT dla analityków danych: uwalnianie spostrzeżeń opartych na sztucznej inteligencji

Końcowe przemyślenia

ChatGPT oferuje wielką wartość dla analityków danych. Po pierwsze, oszczędza czas. Jak widzieliśmy, może szybko generować kod do zadań takich jak ładowanie danych, obsługa brakujących wartości lub tworzenie wykresów. Oznacza to, że możesz skupić się na szerszym obrazie swojego projektu, a nie tylko na szczegółach kodowania.

Po drugie, jest łatwy w użyciu. Kluczem do maksymalnego wykorzystania ChatGPT jest nauczenie się zadawania właściwych pytań poprzez szybką inżynierię. W miarę ćwiczeń nauczysz się formułować podpowiedzi, dzięki czemu ChatGPT stanie się jeszcze bardziej użytecznym narzędziem.

ChatGPT jest potężnym asystentem w Twojej podróży do nauki o danych, ale nie powinieneś całkowicie polegać na ChatGPT przy realizacji swoich projektów. Zamiast tego użyj go jako asystenta i ucz się razem z nim, aby Twoje umiejętności rosły z czasem!