Przejdź do głównej zawartości

5 błędów, które popełniasz podczas czyszczenia danych w Pythonie + jak ich uniknąć [+ PRAKTYCZNY PRZEWODNIK PO CZYSZCZENIU DANYCH W PDF]

 


Najczęstsze błędy podczas czyszczenia danych w Pythonie

Czy zdarzyło Ci się przypadkiem usunąć połowę danych, bo użyłaś dropna() bez namysłu? Jak wspominałam ostatnio, czyszczenie danych to etap często kluczowy do tego, by poprawnie przeanalizować dane, którymi dysponujemy. Dlatego warto poświęcić mu wystarczająco dużo uwagi i czasu, a wtedy unikniemy pracy być może zupełnie na marne.

Trzymając się tematyki, którą ostatnio poruszyłam poświęcam dzisiejszy wpis błędom, które zdarzają się w czyszczeniu danych najczęściej. Nie będzie to kompletna lista, bo pokryje zaledwie 5 aspektów, jednak ze swojej praktyki, a także informacji, które napotykam codziennie w Internecie- będzie to bardzo praktyczna lista rzeczy, których należy się wystrzegać zabierając się za porządkowanie datasetu.


1. Usuwanie brakujących wartości bez analizy przyczyny ich występowania

Błąd: automatyczne dropna() bez sprawdzenia przyczyny braków.

Może prowadzić do utraty dużej części danych.

Niektóre NaN-y są informacyjne (np. „brak zakupu” ≠ „brak danych”).

Zamiast tego: sprawdź .isna().sum() i zastanów się nad imputacją (fillna()), jeśli dane są przydatne.


2. Usuwanie duplikatów bez ich dogłębnej analizy

Błąd: drop_duplicates() bez analizy.

Możesz przypadkowo usunąć poprawne obserwacje, np. dwie osoby o tym samym nazwisku ale różnym wieku.

Zamiast tego: sprawdź najpierw .duplicated() z subset= i przeanalizuj dane kontekstowo.


3. Wykonywanie poleceń "w miejscu", bez przypisywania wyników do zmiennej

Błąd: zmieniasz dane bez przypisania z powrotem.

df.dropna()  # nie przypisano!

 Zamiast tego: używaj inplace=True


4. Nadpisywanie danych wejściowych bez wykonania kopii zapasowej

Błąd: Modyfikujesz oryginalny DataFrame bez kopii – potem nie możesz wrócić do stanu początkowego.

 Zamiast tego: na początku pracy:

df_original = df.copy()


5. Nieusuwanie białych znaków

Błąd: Dane kategoryczne niby wyglądają identycznie, ale mają np. spacje:

'Warszawa' != 'Warszawa '.

Zamiast tego: oczyść dane, usuwając białe znaki i zamieniając je na małe litery jak poniżej

df['miasto'] = df['miasto'].str.strip().str.lower()


Mam nadzieję, że w codziennej pracy uwzględniasz te błędy zważając na to, by analiza była ich pozbawiona. Jeśli nie... To koniecznie zacznij! 

Bonus- darmowy PDF

Przygotowałam dla Ciebie darmowy PDF z kompletnym przewodnikiem krok po kroku. Znajdziesz w nim:
  • checklistę błędów
  • kod źródłowy w Pythonie
  • schemat workflow czyszczenia danych

Przyjemnością było dla mnie to porządkowanie wiedzy z możliwością podzielenia się z tymi, którzy jeszcze są na etapie nauki. Poniżej znajdziesz link do PDFa. Jeśli uważasz, że coś jest niejasne: pisz śmiało. Na pewno wyjaśnię! Wszelkie pomysły na udoskonalenie tego materiału również chętnie przygarnę i zastosuję tak, by materiały, które publikuję były dopracowane na najwyższym poziomie.

PDF - Kompletny przewodnik po czyszczeniu danych w Pythonie


** Zdjęcie z początku posta zostało wygenerowane prze AI - żródło: Sora

Komentarze

Popularne posty z tego bloga

10+ najczęstszych błędów w analizie danych (i jak ich uniknąć przed certyfikatem DataCamp)

  Gdy życie krzyżuje plany  (i co z tego wynika) Jestem na etapie kończenia zaplanowanych powtórek. Wszystko idzie trochę wolniej, niż zakładałam, bo życie (ech, znowu ono) pokrzyżowało mi plany. Mam teraz coś znacznie ważniejszego, z czym muszę się zmierzyć, niż jakikolwiek certyfikat. W tym krótkim poście chciałabym pochylić się nad częstymi błędami, które zdarzają się osobom przygotowującym się do certyfikatu, do którego ja też podchodzę. Pisałam o nim tutaj →  Certyfikat DataCamp: Python Data Associate- jak się do niego przygotowuję? . Skąd wzięłam te błędy? Najpierw przedstawię błędy wymieniane przez autorów materiałów na DataCampie. Potem przejdę przez takie, które często pojawiają się w innych źródłach (np. tu: laboratorium-mozliwosci.pl , dataconversion.ie ). Później dorzucę coś od siebie - czyli błędy, które sama popełniłam. A na koniec to, co podpowiedział mi jeszcze ChatGPT (jako uzupełnienie listy). Z mojej perspektywy - osoby, która przygotowuje się do egza...

Excel od podstaw – jak skutecznie się go nauczyć? Mój sposób.

Obraz  Mango Matter  z  Pixabay Zaczynam od Excela     Zgodnie z wynikami analizy z poprzedniego wpisu, moja nauka zaczyna się od Excela.  Plan nauki zakładał pierwotnie opanowanie tego programu w takim stopniu żeby móc w nim swobodnie pracować. Tylko, że to stwierdzenie nic tak naprawdę nie znaczy.  Dlatego w tym poście staram się trochę usystematyzować, co uważam za znajomość Excela na poziomie zerowym, podstawowym, średnim i zaawansowanym. W tej całej nauce, którą tak planuję nie chcę dać się przytłoczyć mnogością materiałów. Nie chcę dać się ponieść perfekcjonizmowi. Postaram się mieć na uwadze, że nawet, jeśli wiemy dużo, to nie wszystko. Tak też będzie ze mną i Excelem. I to jest zupełnie ok.  Mój plan nauki      Postanowiłam wypunktować umiejętności, które można nabyć, a w miarę nauki zobaczę, ile z tej listy tak naprawdę powinnam zrealizować i na którym etapie poczuję się pewniej z tym programem. Jako, że uwielbiam cał...

SQL w 2 godziny dziennie - plan, motywacja, materiały

  Przyszedł czas na ustalenie nowych celów. Mój wybór padł na powtórki i rozszerzanie wiedzy z SQL. Opracowałam już prosty plan, którego zamierzam się trzymać, rozplanowałam sobie jaką część tego planu zamierzam wykonać w poszczególne dni. Jestem podekscytowana. Jak zawsze, gdy zaczynam coś nowego.  Małe sprostowanie: SQL nie jest dla mnie ZUPEŁNIE nowy, uczyłam się go już kiedyś, ale to było dawno i mam potrzebę go odświeżyć.  Dlaczego akurat SQL? Bo to narzędzie, które mimo upływu lat nie traci na aktualności. W świecie danych SQL wciąż jest podstawą  - niezależnie od tego, czy pracujesz w analizie danych, nauce o danych, czy w IT szerzej. Ja sama coraz częściej trafiam na sytuacje, w których jego znajomość bardzo by mi się przydała - przy analizie wyników, raportach, czy integracji danych z różnych źródeł. Poza tym lubię jego logiczność i strukturę - jest coś satysfakcjonującego w dobrze napisanym zapytaniu, które robi dokładnie to, co powinno. Czuję, że warto poś...