Przejdź do głównej zawartości

Posty

Nowy kurs, nowa motywacja - ruszam z "IBM Data Science" na Courserze!

  Od ostatniego posta minęło już trochę czasu i w międzyczasie moje plany dotyczące nauki zdążyły się nieco zmienić. Powiedziałabym nawet, że dość radykalnie , bo tymczasowo zmieniłam platformę , z której korzystam. Zaczęłam też pracować nad prywatnym projektem analitycznym (ale o nim napiszę więcej, gdy będzie na ukończeniu). Dzisiaj opowiem, co teraz planuję osiągnąć i w jakim czasie . Dlaczego Coursera? Na pewno dobrze znacie platformę Coursera  - ja również dużo o niej słyszałam i tym razem postanowiłam ją przetestować. Nie oznacza to rezygnacji z DataCampa  - wielokrotnie wspominałam, jak bardzo lubię tę platformę i korzystam z niej od dawna. Zmieniam ją tylko na czas przejścia kursu na Courserze , a potem wracam. Skąd ta zmiana? Po części z potrzeby odświeżenia  - myślę, że dobrze mi zrobi tymczasowe przejście na inny styl nauki, poznanie nowych metod przekazywania wiedzy i „odpoczynek głowy” od dotychczasowego schematu. Wybrałam akurat Courserę, bo - podobn...
Najnowsze posty

DataCamp Python Data Associate - relacja i wskazówki dla zdających

Dlaczego zdecydowałam się na ten certyfikat? Wspominałam już wcześniej nie raz i nie dwa, jak sądzę, że przymierzam się do certyfikatu DataCamp Python Data Associate . Od dłuższego czasu często zaglądam na DataCamp i w miarę mojej eksploracji tej platformy zachciałam skorzystać także z opcji przystąpienia do certyfikatu. Żeby się sprawdzić? Żeby coś sobie udowodnić? A może poczuć się lepiej z własną wiedzą? Myślę, że wszystko po trochu popchnęło mnie do tego działania. Długo wahałam się, czy to już ten moment, kiedy chcę się "testować". Nigdy nie byłam osobą, która wyrywała się do odpowiedzi. Wolałam milczeć, ale zapytana odpowiadać na pytania poprawnie. Tak samo teraz, nienaturalnym było dla mnie robić coś takiego z własnej inicjatywy i to w formie spędzania wolnego czasu. Dla przyjemności. Jak wygląda egzamin? Certyfikat składa się z dwóch części. Pierwsza jest teoretyczna i są na nią przeznaczone 2 godziny, kolejna część - praktyczna - trwa 4 godziny (lub krócej oczywiśc...

SQL w 2 godziny dziennie - plan, motywacja, materiały

  Przyszedł czas na ustalenie nowych celów. Mój wybór padł na powtórki i rozszerzanie wiedzy z SQL. Opracowałam już prosty plan, którego zamierzam się trzymać, rozplanowałam sobie jaką część tego planu zamierzam wykonać w poszczególne dni. Jestem podekscytowana. Jak zawsze, gdy zaczynam coś nowego.  Małe sprostowanie: SQL nie jest dla mnie ZUPEŁNIE nowy, uczyłam się go już kiedyś, ale to było dawno i mam potrzebę go odświeżyć.  Dlaczego akurat SQL? Bo to narzędzie, które mimo upływu lat nie traci na aktualności. W świecie danych SQL wciąż jest podstawą  - niezależnie od tego, czy pracujesz w analizie danych, nauce o danych, czy w IT szerzej. Ja sama coraz częściej trafiam na sytuacje, w których jego znajomość bardzo by mi się przydała - przy analizie wyników, raportach, czy integracji danych z różnych źródeł. Poza tym lubię jego logiczność i strukturę - jest coś satysfakcjonującego w dobrze napisanym zapytaniu, które robi dokładnie to, co powinno. Czuję, że warto poś...

5 błędów, które popełniasz podczas czyszczenia danych w Pythonie + jak ich uniknąć [+ PRAKTYCZNY PRZEWODNIK PO CZYSZCZENIU DANYCH W PDF]

  Najczęstsze błędy podczas czyszczenia danych w Pythonie Czy zdarzyło Ci się przypadkiem usunąć połowę danych, bo użyłaś dropna() bez namysłu? Jak wspominałam ostatnio, czyszczenie danych to etap często kluczowy do tego, by poprawnie przeanalizować dane, którymi dysponujemy. Dlatego warto poświęcić mu wystarczająco dużo uwagi i czasu, a wtedy unikniemy pracy być może zupełnie na marne. Trzymając się tematyki, którą ostatnio poruszyłam poświęcam dzisiejszy wpis błędom, które zdarzają się w czyszczeniu danych najczęściej. Nie będzie to kompletna lista, bo pokryje zaledwie 5 aspektów, jednak ze swojej praktyki, a także informacji, które napotykam codziennie w Internecie- będzie to bardzo praktyczna lista rzeczy, których należy się wystrzegać zabierając się za porządkowanie datasetu. 1. Usuwanie brakujących wartości bez analizy przyczyny ich występowania Błąd: automatyczne dropna() bez sprawdzenia przyczyny braków. Może prowadzić do utraty dużej części danych. Niektóre NaN-y są in...

Dlaczego czyszczenie danych jest tak istotne?

  Gdy dopiero zaczynałam naukę pracy z danymi, wielokrotnie trafiałam na informację o tym, że czyszczenie danych stanowi 80% tej pracy, a cała reszta to pozostałe 20%. Z jednej strony ciężko mi było uwierzyć, że całe wyciąganie wniosków i robienie raportu to taki mały odsetek procentowy, a z drugiej byłam w stanie uwierzyć w fakt, że czystość danych jest faktycznie tak istotna. Czy stosunek 80-20 faktycznie oddaje naturę problemu czystości danych? Kiedy właściwie można już uznać, że nasze dane są "czyste" i możemy zająć się kolejnymi etapami?  Garbage in, garbage out - i cała robota na nic Pierwsze co przychodzi mi na myśl, gdy chodzi o czyszczenie danych jest słynne powiedzenie, którego chyba nie sposób nie znać: "garbage in garbage out". Jeśli pierwsze etapy naszej pracy są źle wykonane, cała reszta (nawet wykonana od linijki) może nie mieć znaczenia, prowadząc nas do błędnych obserwacji i wniosków. A więc cała praca idzie na marne. Co daje dobrze oczyszczony zbió...

Jak łączyć dane w pandas - merge, join i concat krok po kroku

  Wprowadzenie: po co łączyć dane w pandas? DataFrame to potężna struktura danych zarówno do eksplorowania jak i analizowania danych. Często zdarza się, że zachodzi konieczność połączenia danych pochodzących z różnych datasetów w jedną całość. Aby ten wpis był dla Ciebie przydatny, musisz mieć już jakieś doświadczenie w pracy z DataFrame'ami, choć nie musi być ono na zaawansowanym poziomie. Wystarczy, że mniej więcej ogarniasz Pythona i stawiałeś już pierwsze kroki w prostych pracach na datasetach. Wtedy, po jakimś czasie zwykle pojawia się konieczność zastosowania różnego typu złączeń, by móc przeprowadzić pełną analizę.  Czego dowiesz się z tego wpisu?  Poznasz metody, które umożliwiają różnego typu złączenia. Zobaczysz czym różnią się od siebie typy złączeń i w jakich sytuacjach stosujemy poszczególne z nich. Choć z całą pewnością nie wyczerpię tematu, to treść tego wpisu powinna stanowić solidną podstawę, żeby poczuć się pewnie z operacją łączenia danych przy pomocy b...

Pliki płaskie w Pythonie - jak importować CSV, TSV i TXT? [Praktyczny przewodnik dla początkujących]

  Pliki płaskie (ang. flat files ) - co musisz o nich wiedzieć? Choć nie przewidywałam żadnych wpisów przed tym,  jak moje wrażenia z podejścia do certyfikatu na DataCampie, to życie miało swoje plany. Mam małe opóźnenia w przygotowaniach, ale i tak jestem z siebie dumna, że posuwam się do przodu. Powoli, lecz systematycznie i to pomimo, że w życiu osobistym przeżywam właśnie trudniejszy czas. Uznałam, że lepsza mała powtórka, niż absolutnie nic.  Dlatego w dzisiejszym wpisie zajmiemy się tematem plików płaskich i sposobami na zaimportowanie ich.  Spis treści: ⦁ Czym są pliki płaskie i jakie są ich rodzaje? ⦁ Jak wczytać plik tekstowy? ⦁ Jak zaimportować plik, gdy jego zawartość to same liczby? ⦁ Jak zaimportować dane w formacie tabelarycznym zawierające różne typy danych? ⦁ Ciekawostki dla początkujących Parę słów o tym typie plików Pliki płaskie (ang. flat files ) - są tak ważne nie tylko dlatego, że jest to standard do przechowywania danych numerycznych, ale tak...