Gdy dopiero zaczynałam naukę pracy z danymi, wielokrotnie trafiałam na informację o tym, że czyszczenie danych stanowi 80% tej pracy, a cała reszta to pozostałe 20%. Z jednej strony ciężko mi było uwierzyć, że całe wyciąganie wniosków i robienie raportu to taki mały odsetek procentowy, a z drugiej byłam w stanie uwierzyć w fakt, że czystość danych jest faktycznie tak istotna. Czy stosunek 80-20 faktycznie oddaje naturę problemu czystości danych? Kiedy właściwie można już uznać, że nasze dane są "czyste" i możemy zająć się kolejnymi etapami?
Garbage in, garbage out - i cała robota na nic
Pierwsze co przychodzi mi na myśl, gdy chodzi o czyszczenie danych jest słynne powiedzenie, którego chyba nie sposób nie znać: "garbage in garbage out". Jeśli pierwsze etapy naszej pracy są źle wykonane, cała reszta (nawet wykonana od linijki) może nie mieć znaczenia, prowadząc nas do błędnych obserwacji i wniosków. A więc cała praca idzie na marne.
Co daje dobrze oczyszczony zbiór danych?
- Lepsza jakość decyzji. Dobre dane to dobre decyzje. Nawet najpiękniejszy dashboard na danych z błędami prowadzi nas donikąd - a dokładniej: do błędnych wniosków i kosztownych pomyłek.
- Mniejsze ryzyko błędów i kosztów. Brudne dane to ryzyko - nie tylko poznawcze, ale i finansowe. Można podjąć błędną decyzję inwestycyjną, źle zaplanować strategię, albo wyciągnąć zupełnie nietrafne wnioski.
- Bezpieczniejsze i stabilniejsze systemy. Czyste dane są mniej problematyczne technicznie - łatwiej się z nimi pracuje, rzadziej „psują się” w pipeline’ach, zmniejszają ryzyko wycieków danych wrażliwych czy dziur bezpieczeństwa.
- Nie da się dobrze wytrenować modelu na brudnych danych. A przynajmniej nie da się tego zrobić bez kompromisów. To czyszczenie danych jest tym etapem, który decyduje o tym, jak dobrze model uogólnia na przyszłość.
Gruntowne sprzątanie
80% czasu pracy na danym zbiorze spędzone na czyszczeniu go? Może nie są to dokładnie takie wartości, o jakich często się słyszy, czyli 80/20 - jest to raczej uproszczenie. Jednak te proporcje dość dobrze opisują realia pracy wielu badaczy danych. Nie wynikają one z braku umiejętności. Po prostu standardem są dość "brudne" dane i dobrze jest poświęcić im trochę więcej uwagi, by uniknąć nieprzyjemnych konsekwencji zaniedbania tego procesu.
Jakie techniki obejmuje czyszczenie danych?
Jest ich naprawdę sporo i dużo zależy od indywidualnych cech zbioru, który analizujemy. Nie sposób więc wymienić wszystkie dostępne możliwości. Takie, które najczęściej należy zastosować w praktyce to:
- usuwanie duplikatów,
- przekształcanie typów danych na odpowiednie,
- zajęcie się outlierami,
- uzupełnianie lub usuwanie brakujących wartości,
- standaryzacja kategorii,
- usuwanie oczywistych błędów, literówek itd.
Kiedy dane są wystarczająco czyste?
To trudne pytanie - i nie ma jednej dobrej odpowiedzi. Nie chodzi o to, by wyczyścić dane „do bólu” i perfekcyjnie każdą kolumnę, jeśli i tak jej nie użyjemy. Czyszczenie danych nie jest liniowe. Droga od czyszczenia datasetu do eksploracyjnej analizy danych, wyciągania wniosków i raportowania nie jest jednostronna. Czasem trzeba wrócić do poprzedniego etapu pracy i coś udoskonalić lub na przykład "doczyścić" bardziej. To się zdarza w pracy nawet bardzo doświadczonych analityków danych, więc zupełnie nie należy się tym przejmować i wyrzucać sobie, że czegoś nie zauważyliśmy i musimy się cofać. To nie powinno nas stresować. A zatem czyste dane to w każdym przypadku dane, na których da się bezbłędnie przeprowadzić analizę danych i w każdym przypadku będzie to inny "stopień doczyszczenia" naszego zbioru.
I jeszcze coś: ja naprawdę lubię czyszczenie danych
Dotarły do mnie informacje, że czyszczenie danych to proces, za którym sporo osób nie przepada. Ja mam odwrotnie. Naprawdę sprawia mi przyjemność doprowadzanie datasetu do stanu, w którym można go poddać analizie. Takie szlifowanie grudki, która po dostatecznej obróbce może stać się diamentem. Przyznam szczerze, że czuję się trochę jakbym wygrała na loterii - skoro tak duża część pracy obejmuje prace porządkowe na danych, to tę większą część już bardzo polubiłam.
Komentarze
Prześlij komentarz