Przejdź do głównej zawartości

Posty

Wyświetlanie postów z czerwiec, 2025

SQL w 2 godziny dziennie - plan, motywacja, materiały

  Przyszedł czas na ustalenie nowych celów. Mój wybór padł na powtórki i rozszerzanie wiedzy z SQL. Opracowałam już prosty plan, którego zamierzam się trzymać, rozplanowałam sobie jaką część tego planu zamierzam wykonać w poszczególne dni. Jestem podekscytowana. Jak zawsze, gdy zaczynam coś nowego.  Małe sprostowanie: SQL nie jest dla mnie ZUPEŁNIE nowy, uczyłam się go już kiedyś, ale to było dawno i mam potrzebę go odświeżyć.  Dlaczego akurat SQL? Bo to narzędzie, które mimo upływu lat nie traci na aktualności. W świecie danych SQL wciąż jest podstawą  - niezależnie od tego, czy pracujesz w analizie danych, nauce o danych, czy w IT szerzej. Ja sama coraz częściej trafiam na sytuacje, w których jego znajomość bardzo by mi się przydała - przy analizie wyników, raportach, czy integracji danych z różnych źródeł. Poza tym lubię jego logiczność i strukturę - jest coś satysfakcjonującego w dobrze napisanym zapytaniu, które robi dokładnie to, co powinno. Czuję, że warto poś...

5 błędów, które popełniasz podczas czyszczenia danych w Pythonie + jak ich uniknąć [+ PRAKTYCZNY PRZEWODNIK PO CZYSZCZENIU DANYCH W PDF]

  Najczęstsze błędy podczas czyszczenia danych w Pythonie Czy zdarzyło Ci się przypadkiem usunąć połowę danych, bo użyłaś dropna() bez namysłu? Jak wspominałam ostatnio, czyszczenie danych to etap często kluczowy do tego, by poprawnie przeanalizować dane, którymi dysponujemy. Dlatego warto poświęcić mu wystarczająco dużo uwagi i czasu, a wtedy unikniemy pracy być może zupełnie na marne. Trzymając się tematyki, którą ostatnio poruszyłam poświęcam dzisiejszy wpis błędom, które zdarzają się w czyszczeniu danych najczęściej. Nie będzie to kompletna lista, bo pokryje zaledwie 5 aspektów, jednak ze swojej praktyki, a także informacji, które napotykam codziennie w Internecie- będzie to bardzo praktyczna lista rzeczy, których należy się wystrzegać zabierając się za porządkowanie datasetu. 1. Usuwanie brakujących wartości bez analizy przyczyny ich występowania Błąd: automatyczne dropna() bez sprawdzenia przyczyny braków. Może prowadzić do utraty dużej części danych. Niektóre NaN-y są in...

Dlaczego czyszczenie danych jest tak istotne?

  Gdy dopiero zaczynałam naukę pracy z danymi, wielokrotnie trafiałam na informację o tym, że czyszczenie danych stanowi 80% tej pracy, a cała reszta to pozostałe 20%. Z jednej strony ciężko mi było uwierzyć, że całe wyciąganie wniosków i robienie raportu to taki mały odsetek procentowy, a z drugiej byłam w stanie uwierzyć w fakt, że czystość danych jest faktycznie tak istotna. Czy stosunek 80-20 faktycznie oddaje naturę problemu czystości danych? Kiedy właściwie można już uznać, że nasze dane są "czyste" i możemy zająć się kolejnymi etapami?  Garbage in, garbage out - i cała robota na nic Pierwsze co przychodzi mi na myśl, gdy chodzi o czyszczenie danych jest słynne powiedzenie, którego chyba nie sposób nie znać: "garbage in garbage out". Jeśli pierwsze etapy naszej pracy są źle wykonane, cała reszta (nawet wykonana od linijki) może nie mieć znaczenia, prowadząc nas do błędnych obserwacji i wniosków. A więc cała praca idzie na marne. Co daje dobrze oczyszczony zbió...

Jak łączyć dane w pandas - merge, join i concat krok po kroku

  Wprowadzenie: po co łączyć dane w pandas? DataFrame to potężna struktura danych zarówno do eksplorowania jak i analizowania danych. Często zdarza się, że zachodzi konieczność połączenia danych pochodzących z różnych datasetów w jedną całość. Aby ten wpis był dla Ciebie przydatny, musisz mieć już jakieś doświadczenie w pracy z DataFrame'ami, choć nie musi być ono na zaawansowanym poziomie. Wystarczy, że mniej więcej ogarniasz Pythona i stawiałeś już pierwsze kroki w prostych pracach na datasetach. Wtedy, po jakimś czasie zwykle pojawia się konieczność zastosowania różnego typu złączeń, by móc przeprowadzić pełną analizę.  Czego dowiesz się z tego wpisu?  Poznasz metody, które umożliwiają różnego typu złączenia. Zobaczysz czym różnią się od siebie typy złączeń i w jakich sytuacjach stosujemy poszczególne z nich. Choć z całą pewnością nie wyczerpię tematu, to treść tego wpisu powinna stanowić solidną podstawę, żeby poczuć się pewnie z operacją łączenia danych przy pomocy b...

Pliki płaskie w Pythonie - jak importować CSV, TSV i TXT? [Praktyczny przewodnik dla początkujących]

  Pliki płaskie (ang. flat files ) - co musisz o nich wiedzieć? Choć nie przewidywałam żadnych wpisów przed tym,  jak moje wrażenia z podejścia do certyfikatu na DataCampie, to życie miało swoje plany. Mam małe opóźnenia w przygotowaniach, ale i tak jestem z siebie dumna, że posuwam się do przodu. Powoli, lecz systematycznie i to pomimo, że w życiu osobistym przeżywam właśnie trudniejszy czas. Uznałam, że lepsza mała powtórka, niż absolutnie nic.  Dlatego w dzisiejszym wpisie zajmiemy się tematem plików płaskich i sposobami na zaimportowanie ich.  Spis treści: ⦁ Czym są pliki płaskie i jakie są ich rodzaje? ⦁ Jak wczytać plik tekstowy? ⦁ Jak zaimportować plik, gdy jego zawartość to same liczby? ⦁ Jak zaimportować dane w formacie tabelarycznym zawierające różne typy danych? ⦁ Ciekawostki dla początkujących Parę słów o tym typie plików Pliki płaskie (ang. flat files ) - są tak ważne nie tylko dlatego, że jest to standard do przechowywania danych numerycznych, ale tak...

10+ najczęstszych błędów w analizie danych (i jak ich uniknąć przed certyfikatem DataCamp)

  Gdy życie krzyżuje plany  (i co z tego wynika) Jestem na etapie kończenia zaplanowanych powtórek. Wszystko idzie trochę wolniej, niż zakładałam, bo życie (ech, znowu ono) pokrzyżowało mi plany. Mam teraz coś znacznie ważniejszego, z czym muszę się zmierzyć, niż jakikolwiek certyfikat. W tym krótkim poście chciałabym pochylić się nad częstymi błędami, które zdarzają się osobom przygotowującym się do certyfikatu, do którego ja też podchodzę. Pisałam o nim tutaj →  Certyfikat DataCamp: Python Data Associate- jak się do niego przygotowuję? . Skąd wzięłam te błędy? Najpierw przedstawię błędy wymieniane przez autorów materiałów na DataCampie. Potem przejdę przez takie, które często pojawiają się w innych źródłach (np. tu: laboratorium-mozliwosci.pl , dataconversion.ie ). Później dorzucę coś od siebie - czyli błędy, które sama popełniłam. A na koniec to, co podpowiedział mi jeszcze ChatGPT (jako uzupełnienie listy). Z mojej perspektywy - osoby, która przygotowuje się do egza...