10+ najczęstszych błędów w analizie danych (i jak ich uniknąć przed certyfikatem DataCamp)

Gdy życie krzyżuje plany (i co z tego wynika)

Jestem na etapie kończenia zaplanowanych powtórek. Wszystko idzie trochę wolniej, niż zakładałam, bo życie (ech, znowu ono) pokrzyżowało mi plany. Mam teraz coś znacznie ważniejszego, z czym muszę się zmierzyć, niż jakikolwiek certyfikat.

W tym krótkim poście chciałabym pochylić się nad częstymi błędami, które zdarzają się osobom przygotowującym się do certyfikatu, do którego ja też podchodzę. Pisałam o nim tutaj → Certyfikat DataCamp: Python Data Associate- jak się do niego przygotowuję?.

Skąd wzięłam te błędy?

Najpierw przedstawię błędy wymieniane przez autorów materiałów na DataCampie. Potem przejdę przez takie, które często pojawiają się w innych źródłach (np. tu: laboratorium-mozliwosci.pl, dataconversion.ie). Później dorzucę coś od siebie - czyli błędy, które sama popełniłam. A na koniec to, co podpowiedział mi jeszcze ChatGPT (jako uzupełnienie listy).

Z mojej perspektywy - osoby, która przygotowuje się do egzaminu Python Data Associate - najważniejsze są te błędy z DataCampa. Skoro tam się pojawiają, to najpewniej będzie „można” je popełnić na egzaminie. Dlatego przejdziemy przez całą listę - nawet jeśli coś wydaje się oczywiste. Tak dla pewności.

Błędy wg DataCamp - czyli co na pewno może Cię dopaść

1. All required data has been created and has the required columns
To odnosi się do zadań, w których trzeba dodać jakąś kolumnę - i często tego po prostu nie robimy. Wydaje się proste do uniknięcia… chyba że stres egzaminacyjny daje się we znaki. Moja rada? Warto sobie przypomnieć, że to tylko test - jeden z wielu, jakie nas pewnie jeszcze czekają w życiu.

2. Identify and replace missing values
Tu trzeba być czujnym, bo brak danych może przyjąć różne formy: myślnik, słowo „missing”, ale też np. pusta spacja (albo kilka), a nawet dziwna, duża liczba wynikająca z błędów przetwarzania. Warto spojrzeć na dane z podejrzliwością. Założyć, że problem jest - tylko go jeszcze nie widzimy. Tylko bez paranoi.

3. Convert values between data types
Niby oczywiste - trzeba sprawdzać typ danych. Ale warto też sprawdzić typ po konwersji, bo nie zawsze wszystko idzie zgodnie z planem.

4. Clean categorical and text data by manipulating strings
Tutaj trzeba się zastanowić: czy dane kategoryczne mają tyle wartości, ile mieć powinny? Literówki, różnice w wielkości liter, różne sposoby zapisu tej samej rzeczy - to wszystko może sprawić, że jedna kategoria będzie wyglądać jak trzy różne. Lepiej to porządnie sprawdzić.

5. Aggregate numeric, categorical variables and dates by groups
Samo grupowanie to pół biedy. Ale np. liczba miejsc po przecinku - to już może mieć znaczenie. 4.59 osoby? Brzmi śmiesznie, ale czasem tak właśnie wychodzi, jeśli bezmyślnie zostawimy wszystkie miejsca dziesiętne. A może właśnie nie powinniśmy zaokrąglać?

6. Extract data based on different conditions
Tutaj ważne jest rozumienie kontekstu biznesowego. Dane mają spełniać jakieś warunki - ale jakie dokładnie? To już trzeba sobie często samemu doprecyzować, bo polecenia nie zawsze będą jednoznaczne.

Podsumowanie tej sekcji: wszystkie te błędy dotyczą etapu czyszczenia danych. To wyraźnie pokazuje, jak bardzo kluczowy jest to moment - zanim jeszcze przejdziemy do właściwej analizy.

Błędy z innych źródeł

W artykułach takich jak:
➨ https://laboratorium-mozliwosci.pl/najczestsze-bledy-w-analizie-danych-i-jak-ich-unikac
➨https://dataconversion.ie/common-data-cleaning-mistakes/

…znalazłam jeszcze kilka ważnych punktów:

Nieusunięte duplikaty - mogą prowadzić do mylnych wniosków. Powinno to być na naszej liście kontrolnej za każdym razem.

Braki danych pozostawione bez decyzji - trzeba ustalić, co z nimi robimy: usuwamy? imputujemy? Zostawiamy?

Wartości odstające - nie chodzi tylko o ich wykrycie, ale o zrozumienie dlaczego tam są. Czasem ich nie powinno być (np. wpisano dane w złych jednostkach), a czasem są uzasadnione.

Przykład z życia: pracując z danymi medycznymi, zauważyłam duże różnice w wartościach. Okazało się, że dane były wprowadzane w różnych jednostkach. Nie można ich było po prostu wyrzucić - trzeba było je przeliczyć. Ale żeby to zrobić, potrzebna była wiedza dziedzinowa.

Niekonsekwentne formatowanie danych - klasyk. Na przykład daty. Nie zakładajmy, że są w formacie „DD-MM-YYYY”, tylko sprawdźmy to naprawdę.

Moje własne błędy (czyli czego już więcej nie robię)

Przy mojej pierwszej analizie - z braku wiedzy - nie zrobiłam kopii danych. Nadpisałam oryginalny plik. No i tyle było z możliwości porównań, powrotu, czy naprawy. Teraz zawsze pracuję na kopii. Zawsze.

Co jeszcze podpowiedział mi ChatGPT?

Poprosiłam go o spojrzenie z boku - i faktycznie, dodał parę trafnych punktów:

Eksploracyjna Analiza Danych (EDA) - bez niej można łatwo przeoczyć błędy, wartości odstające, albo kolumny, które nic nie wnoszą.

Dokumentowanie pracy - nie chodzi tylko o porządek, ale o możliwość odtworzenia analizy. Sama kiedyś pomijałam ten krok i potem trudno mi było dojść, dlaczego coś wygląda tak, a nie inaczej.

Na koniec

Błędy są nieodłączną częścią nauki. Ważne tylko, żeby nie popełniać ciągle tych samych. Mam nadzieję, że ten wpis Ci w tym trochę pomoże. A jeśli masz swoje „wpadki” z analizy danych - chętnie poczytam w komentarzu.

* Zdjęcie z początku wpisu pochodzi z Pixabay. Jego autorką jest Lindsay_Jayne.

Data-Driven Transition - moja droga do przebranżowienia - branża IT

Szukaj na tym blogu