Przejdź do głównej zawartości

Dlaczego czyszczenie danych jest tak istotne?

 

Gdy dopiero zaczynałam naukę pracy z danymi, wielokrotnie trafiałam na informację o tym, że czyszczenie danych stanowi 80% tej pracy, a cała reszta to pozostałe 20%. Z jednej strony ciężko mi było uwierzyć, że całe wyciąganie wniosków i robienie raportu to taki mały odsetek procentowy, a z drugiej byłam w stanie uwierzyć w fakt, że czystość danych jest faktycznie tak istotna. Czy stosunek 80-20 faktycznie oddaje naturę problemu czystości danych? Kiedy właściwie można już uznać, że nasze dane są "czyste" i możemy zająć się kolejnymi etapami? 

Garbage in, garbage out - i cała robota na nic

Pierwsze co przychodzi mi na myśl, gdy chodzi o czyszczenie danych jest słynne powiedzenie, którego chyba nie sposób nie znać: "garbage in garbage out". Jeśli pierwsze etapy naszej pracy są źle wykonane, cała reszta (nawet wykonana od linijki) może nie mieć znaczenia, prowadząc nas do błędnych obserwacji i wniosków. A więc cała praca idzie na marne.

Co daje dobrze oczyszczony zbiór danych?

  1. Lepsza jakość decyzji. Dobre dane to dobre decyzje. Nawet najpiękniejszy dashboard na danych z błędami prowadzi nas donikąd - a dokładniej: do błędnych wniosków i kosztownych pomyłek.
  2. Mniejsze ryzyko błędów i kosztów. Brudne dane to ryzyko - nie tylko poznawcze, ale i finansowe. Można podjąć błędną decyzję inwestycyjną, źle zaplanować strategię, albo wyciągnąć zupełnie nietrafne wnioski.
  3. Bezpieczniejsze i stabilniejsze systemy. Czyste dane są mniej problematyczne technicznie - łatwiej się z nimi pracuje, rzadziej „psują się” w pipeline’ach, zmniejszają ryzyko wycieków danych wrażliwych czy dziur bezpieczeństwa.
  4. Nie da się dobrze wytrenować modelu na brudnych danych. A przynajmniej nie da się tego zrobić bez kompromisów. To czyszczenie danych jest tym etapem, który decyduje o tym, jak dobrze model uogólnia na przyszłość.

Gruntowne sprzątanie

80% czasu pracy na danym zbiorze spędzone na czyszczeniu go? Może nie są to dokładnie takie wartości, o jakich często się słyszy, czyli 80/20 - jest to raczej uproszczenie. Jednak te proporcje dość dobrze opisują realia pracy wielu badaczy danych. Nie wynikają one z braku umiejętności. Po prostu standardem są dość "brudne" dane i dobrze jest poświęcić im trochę więcej uwagi, by uniknąć nieprzyjemnych konsekwencji zaniedbania tego procesu.

Jakie techniki obejmuje czyszczenie danych?

Jest ich naprawdę sporo i dużo zależy od indywidualnych cech zbioru, który analizujemy. Nie sposób więc wymienić wszystkie dostępne możliwości. Takie, które najczęściej należy zastosować w praktyce to:

  • usuwanie duplikatów,
  • przekształcanie typów danych na odpowiednie,
  • zajęcie się outlierami,
  • uzupełnianie lub usuwanie brakujących wartości,
  • standaryzacja kategorii,
  • usuwanie oczywistych błędów, literówek itd.

Kiedy dane są wystarczająco czyste?

To trudne pytanie - i nie ma jednej dobrej odpowiedzi. Nie chodzi o to, by wyczyścić dane „do bólu” i perfekcyjnie każdą kolumnę, jeśli i tak jej nie użyjemy. Czyszczenie danych nie jest liniowe. Droga od czyszczenia datasetu do eksploracyjnej analizy danych, wyciągania wniosków i raportowania nie jest jednostronna. Czasem trzeba wrócić do poprzedniego etapu pracy i coś udoskonalić lub na przykład "doczyścić" bardziej. To się zdarza w pracy nawet bardzo doświadczonych analityków danych, więc zupełnie nie należy się tym przejmować i wyrzucać sobie, że czegoś nie zauważyliśmy i musimy się cofać. To nie powinno nas stresować. A zatem czyste dane to w każdym przypadku dane, na których da się bezbłędnie przeprowadzić analizę danych i w każdym przypadku będzie to inny "stopień doczyszczenia" naszego zbioru. 

I jeszcze coś: ja naprawdę lubię czyszczenie danych

Dotarły do mnie informacje, że czyszczenie danych to proces, za którym sporo osób nie przepada. Ja mam odwrotnie. Naprawdę sprawia mi przyjemność doprowadzanie datasetu do stanu, w którym można go poddać analizie. Takie szlifowanie grudki, która po dostatecznej obróbce może stać się diamentem. Przyznam szczerze, że czuję się trochę jakbym wygrała na loterii - skoro tak duża część pracy obejmuje prace porządkowe na danych, to tę większą część już bardzo polubiłam. 

Materiały dotyczące czyszczenia danych

W kolejnym wpisie również pozostanę przy temacie porządkowania zbiorów danych. Już wkrótce udostępnię przewodnik w formacie PDF, który krok po kroku przeprowadzi Was przez proces czyszczenia - tak, jak sama się tego uczyłam, korzystając z różnych źródeł i praktycznych doświadczeń. Mam nadzieję, że choć jednej osobie pomoże on lepiej zrozumieć ten niezwykle istotny etap pracy z danymi.


** Zdjęcie z początku posta: obraz Renkilde Copenhagen z Pixabay

Komentarze

Popularne posty z tego bloga

10+ najczęstszych błędów w analizie danych (i jak ich uniknąć przed certyfikatem DataCamp)

  Gdy życie krzyżuje plany  (i co z tego wynika) Jestem na etapie kończenia zaplanowanych powtórek. Wszystko idzie trochę wolniej, niż zakładałam, bo życie (ech, znowu ono) pokrzyżowało mi plany. Mam teraz coś znacznie ważniejszego, z czym muszę się zmierzyć, niż jakikolwiek certyfikat. W tym krótkim poście chciałabym pochylić się nad częstymi błędami, które zdarzają się osobom przygotowującym się do certyfikatu, do którego ja też podchodzę. Pisałam o nim tutaj →  Certyfikat DataCamp: Python Data Associate- jak się do niego przygotowuję? . Skąd wzięłam te błędy? Najpierw przedstawię błędy wymieniane przez autorów materiałów na DataCampie. Potem przejdę przez takie, które często pojawiają się w innych źródłach (np. tu: laboratorium-mozliwosci.pl , dataconversion.ie ). Później dorzucę coś od siebie - czyli błędy, które sama popełniłam. A na koniec to, co podpowiedział mi jeszcze ChatGPT (jako uzupełnienie listy). Z mojej perspektywy - osoby, która przygotowuje się do egza...

Excel od podstaw – jak skutecznie się go nauczyć? Mój sposób.

Obraz  Mango Matter  z  Pixabay Zaczynam od Excela     Zgodnie z wynikami analizy z poprzedniego wpisu, moja nauka zaczyna się od Excela.  Plan nauki zakładał pierwotnie opanowanie tego programu w takim stopniu żeby móc w nim swobodnie pracować. Tylko, że to stwierdzenie nic tak naprawdę nie znaczy.  Dlatego w tym poście staram się trochę usystematyzować, co uważam za znajomość Excela na poziomie zerowym, podstawowym, średnim i zaawansowanym. W tej całej nauce, którą tak planuję nie chcę dać się przytłoczyć mnogością materiałów. Nie chcę dać się ponieść perfekcjonizmowi. Postaram się mieć na uwadze, że nawet, jeśli wiemy dużo, to nie wszystko. Tak też będzie ze mną i Excelem. I to jest zupełnie ok.  Mój plan nauki      Postanowiłam wypunktować umiejętności, które można nabyć, a w miarę nauki zobaczę, ile z tej listy tak naprawdę powinnam zrealizować i na którym etapie poczuję się pewniej z tym programem. Jako, że uwielbiam cał...

SQL w 2 godziny dziennie - plan, motywacja, materiały

  Przyszedł czas na ustalenie nowych celów. Mój wybór padł na powtórki i rozszerzanie wiedzy z SQL. Opracowałam już prosty plan, którego zamierzam się trzymać, rozplanowałam sobie jaką część tego planu zamierzam wykonać w poszczególne dni. Jestem podekscytowana. Jak zawsze, gdy zaczynam coś nowego.  Małe sprostowanie: SQL nie jest dla mnie ZUPEŁNIE nowy, uczyłam się go już kiedyś, ale to było dawno i mam potrzebę go odświeżyć.  Dlaczego akurat SQL? Bo to narzędzie, które mimo upływu lat nie traci na aktualności. W świecie danych SQL wciąż jest podstawą  - niezależnie od tego, czy pracujesz w analizie danych, nauce o danych, czy w IT szerzej. Ja sama coraz częściej trafiam na sytuacje, w których jego znajomość bardzo by mi się przydała - przy analizie wyników, raportach, czy integracji danych z różnych źródeł. Poza tym lubię jego logiczność i strukturę - jest coś satysfakcjonującego w dobrze napisanym zapytaniu, które robi dokładnie to, co powinno. Czuję, że warto poś...