Gdy życie krzyżuje plany (i co z tego wynika)
Jestem na etapie
kończenia zaplanowanych powtórek. Wszystko idzie trochę wolniej, niż
zakładałam, bo życie (ech, znowu ono) pokrzyżowało mi plany. Mam teraz coś
znacznie ważniejszego, z czym muszę się zmierzyć, niż jakikolwiek certyfikat.
W tym krótkim poście chciałabym pochylić się nad częstymi błędami, które zdarzają się osobom przygotowującym się do certyfikatu, do którego ja też podchodzę. Pisałam o nim tutaj → Certyfikat DataCamp: Python Data Associate- jak się do niego przygotowuję?.
Skąd wzięłam te błędy?
Najpierw przedstawię błędy wymieniane przez autorów materiałów na DataCampie. Potem przejdę przez takie, które często pojawiają się w innych źródłach (np. tu: laboratorium-mozliwosci.pl, dataconversion.ie). Później dorzucę coś od siebie - czyli błędy, które sama popełniłam. A na koniec to, co podpowiedział mi jeszcze ChatGPT (jako uzupełnienie listy).
Z mojej
perspektywy - osoby, która przygotowuje się do egzaminu Python Data
Associate - najważniejsze są te błędy z DataCampa. Skoro tam się pojawiają,
to najpewniej będzie „można” je popełnić na egzaminie. Dlatego przejdziemy
przez całą listę - nawet jeśli coś wydaje się oczywiste. Tak dla
pewności.
Błędy wg DataCamp - czyli co na pewno może Cię dopaść
1. All
required data has been created and has the required columns
To odnosi się do zadań, w których trzeba dodać jakąś kolumnę - i często tego po
prostu nie robimy. Wydaje się proste do uniknięcia… chyba że stres
egzaminacyjny daje się we znaki. Moja rada? Warto sobie przypomnieć, że to tylko
test - jeden z wielu, jakie nas pewnie jeszcze czekają w życiu.
2. Identify
and replace missing values
Tu trzeba być czujnym, bo brak danych może przyjąć różne formy: myślnik, słowo
„missing”, ale też np. pusta spacja (albo kilka), a nawet dziwna, duża liczba
wynikająca z błędów przetwarzania. Warto spojrzeć na dane z podejrzliwością.
Założyć, że problem jest - tylko go jeszcze nie widzimy. Tylko bez
paranoi.
3. Convert
values between data types
Niby oczywiste - trzeba sprawdzać typ danych. Ale warto też sprawdzić typ po
konwersji, bo nie zawsze wszystko idzie zgodnie z planem.
4. Clean
categorical and text data by manipulating strings
Tutaj trzeba się zastanowić: czy dane kategoryczne mają tyle wartości, ile mieć
powinny? Literówki, różnice w wielkości liter, różne sposoby zapisu tej samej
rzeczy - to wszystko może sprawić, że jedna kategoria będzie wyglądać jak trzy
różne. Lepiej to porządnie sprawdzić.
5. Aggregate
numeric, categorical variables and dates by groups
Samo grupowanie to pół biedy. Ale np. liczba miejsc po przecinku - to już może
mieć znaczenie. 4.59 osoby? Brzmi śmiesznie, ale czasem tak właśnie wychodzi,
jeśli bezmyślnie zostawimy wszystkie miejsca dziesiętne. A może właśnie nie
powinniśmy zaokrąglać?
6.
Extract data based on different conditions
Tutaj ważne jest rozumienie kontekstu biznesowego. Dane mają spełniać
jakieś warunki - ale jakie dokładnie? To już trzeba sobie często samemu
doprecyzować, bo polecenia nie zawsze będą jednoznaczne.
Podsumowanie
tej sekcji: wszystkie te
błędy dotyczą etapu czyszczenia danych. To wyraźnie pokazuje, jak bardzo
kluczowy jest to moment - zanim jeszcze przejdziemy do właściwej analizy.
Błędy z innych źródeł
W artykułach
takich jak:
➨ https://laboratorium-mozliwosci.pl/najczestsze-bledy-w-analizie-danych-i-jak-ich-unikac
➨https://dataconversion.ie/common-data-cleaning-mistakes/
…znalazłam
jeszcze kilka ważnych punktów:
- Nieusunięte duplikaty - mogą prowadzić do mylnych
wniosków. Powinno to być na naszej liście kontrolnej za każdym razem.
- Braki danych pozostawione bez decyzji - trzeba ustalić, co z nimi robimy: usuwamy? imputujemy? Zostawiamy?
- Wartości odstające - nie chodzi tylko o ich wykrycie,
ale o zrozumienie dlaczego tam są. Czasem ich nie powinno być (np.
wpisano dane w złych jednostkach), a czasem są uzasadnione.
Przykład z życia:
pracując z danymi medycznymi, zauważyłam duże różnice w wartościach. Okazało
się, że dane były wprowadzane w różnych jednostkach. Nie można ich było
po prostu wyrzucić - trzeba było je przeliczyć. Ale żeby to zrobić,
potrzebna była wiedza dziedzinowa.
- Niekonsekwentne formatowanie danych - klasyk. Na przykład daty. Nie zakładajmy, że są w formacie „DD-MM-YYYY”, tylko sprawdźmy to naprawdę.
Moje własne błędy (czyli czego już więcej nie robię)
Przy mojej
pierwszej analizie - z braku wiedzy - nie zrobiłam kopii danych. Nadpisałam
oryginalny plik. No i tyle było z możliwości porównań, powrotu, czy naprawy. Teraz
zawsze pracuję na kopii. Zawsze.
Co jeszcze podpowiedział mi ChatGPT?
Poprosiłam go o
spojrzenie z boku - i faktycznie, dodał parę trafnych punktów:
- Eksploracyjna Analiza Danych (EDA) - bez niej można łatwo przeoczyć
błędy, wartości odstające, albo kolumny, które nic nie wnoszą.
- Dokumentowanie pracy - nie chodzi tylko o porządek, ale o
możliwość odtworzenia analizy. Sama kiedyś pomijałam ten krok i potem
trudno mi było dojść, dlaczego coś wygląda tak, a nie inaczej.
Na koniec
Błędy są
nieodłączną częścią nauki. Ważne tylko, żeby nie popełniać ciągle tych
samych. Mam nadzieję, że ten wpis Ci w tym trochę pomoże. A jeśli masz
swoje „wpadki” z analizy danych - chętnie poczytam w komentarzu.
Komentarze
Prześlij komentarz