5 błędów, które popełniasz podczas czyszczenia danych w Pythonie + jak ich uniknąć [+ PRAKTYCZNY PRZEWODNIK PO CZYSZCZENIU DANYCH W PDF]
Najczęstsze błędy podczas czyszczenia danych w Pythonie
Czy zdarzyło Ci się przypadkiem usunąć połowę danych, bo użyłaś dropna() bez namysłu? Jak wspominałam ostatnio, czyszczenie danych to etap często kluczowy do tego, by poprawnie przeanalizować dane, którymi dysponujemy. Dlatego warto poświęcić mu wystarczająco dużo uwagi i czasu, a wtedy unikniemy pracy być może zupełnie na marne.
Trzymając się tematyki, którą ostatnio poruszyłam poświęcam dzisiejszy wpis błędom, które zdarzają się w czyszczeniu danych najczęściej. Nie będzie to kompletna lista, bo pokryje zaledwie 5 aspektów, jednak ze swojej praktyki, a także informacji, które napotykam codziennie w Internecie- będzie to bardzo praktyczna lista rzeczy, których należy się wystrzegać zabierając się za porządkowanie datasetu.
1. Usuwanie brakujących wartości bez analizy przyczyny ich występowania
Błąd: automatyczne dropna() bez sprawdzenia przyczyny braków.
Może prowadzić do utraty dużej części danych.
Niektóre NaN-y są informacyjne (np. „brak zakupu” ≠ „brak danych”).
Zamiast tego: sprawdź .isna().sum() i zastanów się nad imputacją (fillna()), jeśli dane są przydatne.
2. Usuwanie duplikatów bez ich dogłębnej analizy
Błąd: drop_duplicates() bez analizy.
Możesz przypadkowo usunąć poprawne obserwacje, np. dwie osoby o tym samym nazwisku ale różnym wieku.
Zamiast tego: sprawdź najpierw .duplicated() z subset= i przeanalizuj dane kontekstowo.
3. Wykonywanie poleceń "w miejscu", bez przypisywania wyników do zmiennej
Błąd: zmieniasz dane bez przypisania z powrotem.
df.dropna() # nie przypisano!
Zamiast tego: używaj inplace=True
4. Nadpisywanie danych wejściowych bez wykonania kopii zapasowej
Błąd: Modyfikujesz oryginalny DataFrame bez kopii – potem nie możesz wrócić do stanu początkowego.
Zamiast tego: na początku pracy:
df_original = df.copy()
5. Nieusuwanie białych znaków
Błąd: Dane kategoryczne niby wyglądają identycznie, ale mają np. spacje:
'Warszawa' != 'Warszawa '.
Zamiast tego: oczyść dane, usuwając białe znaki i zamieniając je na małe litery jak poniżej
df['miasto'] = df['miasto'].str.strip().str.lower()
Mam nadzieję, że w codziennej pracy uwzględniasz te błędy zważając na to, by analiza była ich pozbawiona. Jeśli nie... To koniecznie zacznij!
Bonus- darmowy PDF
- checklistę błędów
- kod źródłowy w Pythonie
- schemat workflow czyszczenia danych
Przyjemnością było dla mnie to porządkowanie wiedzy z możliwością podzielenia się z tymi, którzy jeszcze są na etapie nauki. Poniżej znajdziesz link do PDFa. Jeśli uważasz, że coś jest niejasne: pisz śmiało. Na pewno wyjaśnię! Wszelkie pomysły na udoskonalenie tego materiału również chętnie przygarnę i zastosuję tak, by materiały, które publikuję były dopracowane na najwyższym poziomie.
PDF - Kompletny przewodnik po czyszczeniu danych w Pythonie
** Zdjęcie z początku posta zostało wygenerowane prze AI - żródło: Sora
Komentarze
Prześlij komentarz