Dlaczego czyszczenie danych jest tak istotne?

Gdy dopiero zaczynałam naukę pracy z danymi, wielokrotnie trafiałam na informację o tym, że czyszczenie danych stanowi 80% tej pracy, a cała reszta to pozostałe 20%. Z jednej strony ciężko mi było uwierzyć, że całe wyciąganie wniosków i robienie raportu to taki mały odsetek procentowy, a z drugiej byłam w stanie uwierzyć w fakt, że czystość danych jest faktycznie tak istotna. Czy stosunek 80-20 faktycznie oddaje naturę problemu czystości danych? Kiedy właściwie można już uznać, że nasze dane są "czyste" i możemy zająć się kolejnymi etapami?

Garbage in, garbage out - i cała robota na nic

Pierwsze co przychodzi mi na myśl, gdy chodzi o czyszczenie danych jest słynne powiedzenie, którego chyba nie sposób nie znać: "garbage in garbage out". Jeśli pierwsze etapy naszej pracy są źle wykonane, cała reszta (nawet wykonana od linijki) może nie mieć znaczenia, prowadząc nas do błędnych obserwacji i wniosków. A więc cała praca idzie na marne.

Co daje dobrze oczyszczony zbiór danych?

Lepsza jakość decyzji. Dobre dane to dobre decyzje. Nawet najpiękniejszy dashboard na danych z błędami prowadzi nas donikąd - a dokładniej: do błędnych wniosków i kosztownych pomyłek.
Mniejsze ryzyko błędów i kosztów. Brudne dane to ryzyko - nie tylko poznawcze, ale i finansowe. Można podjąć błędną decyzję inwestycyjną, źle zaplanować strategię, albo wyciągnąć zupełnie nietrafne wnioski.
Bezpieczniejsze i stabilniejsze systemy. Czyste dane są mniej problematyczne technicznie - łatwiej się z nimi pracuje, rzadziej „psują się” w pipeline’ach, zmniejszają ryzyko wycieków danych wrażliwych czy dziur bezpieczeństwa.
Nie da się dobrze wytrenować modelu na brudnych danych. A przynajmniej nie da się tego zrobić bez kompromisów. To czyszczenie danych jest tym etapem, który decyduje o tym, jak dobrze model uogólnia na przyszłość.

Gruntowne sprzątanie

80% czasu pracy na danym zbiorze spędzone na czyszczeniu go? Może nie są to dokładnie takie wartości, o jakich często się słyszy, czyli 80/20 - jest to raczej uproszczenie. Jednak te proporcje dość dobrze opisują realia pracy wielu badaczy danych. Nie wynikają one z braku umiejętności. Po prostu standardem są dość "brudne" dane i dobrze jest poświęcić im trochę więcej uwagi, by uniknąć nieprzyjemnych konsekwencji zaniedbania tego procesu.

Jakie techniki obejmuje czyszczenie danych?

Jest ich naprawdę sporo i dużo zależy od indywidualnych cech zbioru, który analizujemy. Nie sposób więc wymienić wszystkie dostępne możliwości. Takie, które najczęściej należy zastosować w praktyce to:

usuwanie duplikatów,
przekształcanie typów danych na odpowiednie,
zajęcie się outlierami,
uzupełnianie lub usuwanie brakujących wartości,
standaryzacja kategorii,
usuwanie oczywistych błędów, literówek itd.

Kiedy dane są wystarczająco czyste?

To trudne pytanie - i nie ma jednej dobrej odpowiedzi. Nie chodzi o to, by wyczyścić dane „do bólu” i perfekcyjnie każdą kolumnę, jeśli i tak jej nie użyjemy. Czyszczenie danych nie jest liniowe. Droga od czyszczenia datasetu do eksploracyjnej analizy danych, wyciągania wniosków i raportowania nie jest jednostronna. Czasem trzeba wrócić do poprzedniego etapu pracy i coś udoskonalić lub na przykład "doczyścić" bardziej. To się zdarza w pracy nawet bardzo doświadczonych analityków danych, więc zupełnie nie należy się tym przejmować i wyrzucać sobie, że czegoś nie zauważyliśmy i musimy się cofać. To nie powinno nas stresować. A zatem czyste dane to w każdym przypadku dane, na których da się bezbłędnie przeprowadzić analizę danych i w każdym przypadku będzie to inny "stopień doczyszczenia" naszego zbioru.

I jeszcze coś: ja naprawdę lubię czyszczenie danych

Dotarły do mnie informacje, że czyszczenie danych to proces, za którym sporo osób nie przepada. Ja mam odwrotnie. Naprawdę sprawia mi przyjemność doprowadzanie datasetu do stanu, w którym można go poddać analizie. Takie szlifowanie grudki, która po dostatecznej obróbce może stać się diamentem. Przyznam szczerze, że czuję się trochę jakbym wygrała na loterii - skoro tak duża część pracy obejmuje prace porządkowe na danych, to tę większą część już bardzo polubiłam.

Materiały dotyczące czyszczenia danych

W kolejnym wpisie również pozostanę przy temacie porządkowania zbiorów danych. Już wkrótce udostępnię przewodnik w formacie PDF, który krok po kroku przeprowadzi Was przez proces czyszczenia - tak, jak sama się tego uczyłam, korzystając z różnych źródeł i praktycznych doświadczeń. Mam nadzieję, że choć jednej osobie pomoże on lepiej zrozumieć ten niezwykle istotny etap pracy z danymi.

** Zdjęcie z początku posta: obraz Renkilde Copenhagen z Pixabay

Data-Driven Transition - moja droga do przebranżowienia - branża IT

Szukaj na tym blogu