Newsletter Dane i Analizy, 2022-06-27

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Gorąco… żar leje się z nieba, taka spiekota w mieście to piekło (niczym w Hydrozagadce).

Zatem gorące materiały: wyniki ankiety StackOverflow, którą osobiście traktuję jako wyznacznik tego jakie technologie są obecnie używane na rynku, czego warto się uczyć i co trzeba potrafić aby swobodnie zmieniać pracę. Pakiet materiałów od Krzyśka Sopyły do nauki ML oraz rozwiązanie konkretnych zagadnień takich jak pipeline dla danych ze Stravy.

Weźmiecie udział w pieszym rajdzie PPTK na odznakę nizinną? Nawet jeśli nie, pamiętajcie że dobrze jest łączyć przyjemne z pożytecznym!

#AI_ML

XGBoost: its present-day powers and use cases
XGBoost to jedna z najpopularniejszych bibliotek do zadań ML dająca bardzo dobre wyniki. Jak to działa pod spodem? Na czym polega?

#analiza_danych_koncepcje

What drives your customer’s decisions?
W ramach platformy Kaggle ostatnio zakończył się konkurs na rekomendację produktów w sklepie internetowym z ubraniami. Tutaj relacja twórców jednego z rozwiązań (bardzo szeroka – warto!)

#analiza_danych_projekty

Building a Data Pipeline for My Strava Data
Strava to serwis w którym (głównie) rowerzyści i biegacze odnotowują swoje treningi. Serwis przechowuje znane nam dane (nasze własne) – analiza tego typu danych to fajna przygoda, bo przecież wiadomo gdzie się było i kiedy, widać więc że analizy (czy chociażby wykresy) pokazują prawdę jaką znamy z doświadczenia. W tym tekście zaś opisano cały proces przetwarzania danych pozyskiwanych ze Stravy

NLP With PySpark
Szybkie wprowadzenie do analizy tekstu w Sparku. Nadaje się też jako wprowadzenie do dowolnego tematu przetrwarzania danych w Sparku na potrzeby późniejszego ich wykorzystania w modelach ML

How to Create The xG Progress Chart using Python
Opowiadanie o piłce nożnej z użyciem danych wprost z boiska

#bazy_danych

PostgreSQL Fuzzy Text Search
Chcesz napisać wyszukiwarkę, która korzysta z danych podawanych przez użytkowników. Niestety, użytkownicy często popełniają literówki, robią błędy ortograficzne, a czasami wymyślą zapis obcojęzycznego słowa, na który nigdy byś nie wpadł. Jak to wszystko uwzględnić w wyszukiwarce? Na pomoc przychodzi PostgreSQL i kilka jego modułów.

#ciekawostki

Stack Overflow Developer Survey 2022
W maju tego roku, ponad 70 tysięcy developerów na StackOverflow wypełniło ankietę dotyczącą ich pracy, używanych technologii, frameworków itp. Warto rzucić okiem, jak obecnie wygląda świat IT i co jest popularne

Kursy i materiały do nauki machine learning i data engineering
Materiały do nauki machine learningu – od fundamentów, poprzez deep learning, przez specjalizację, po tematy data engineering. Materiały są podzielone pod względem tematyki oraz stopnia zaawansowania (początkujący, średniozaawansowany, ekspert).

#management

Building more effective data teams using the JTBD framework
Jako specjaliści zajmujący się danymi, naszym zadaniem jest wywieranie wpływu na biznes poprzez lepsze podejmowanie decyzji, a nie robienie wrażenia na kolegach inżynierów złożonymi potokami danych. Efektowny przepływ danych nie przyniesie biznesowy pieniędzy. Struktura JTBD (job to be done) może pomóc zespołom danych w ustalaniu priorytetów właściwej pracy i wywieraniu większego wpływu na biznes na co dzień

#programowanie_ogólnie

Seven Ineffective Coding Habits of Many Programmers
Autor pokazuje nawyki programistów, które prowadzą do nadmiernego skomplikowania kodu i powodują, że kod jest mniej czytelny i trudniejszy do ogarnięcia. Czasami nawet takie drobiazgi jak formatowanie kodu mogą mieć wpływ na produktywność programisty. Ciekawa prelekcja, momentami nawet zabawna.

#python

Solving the Travelling Salesman Problem for Germany using NetworkX in Python
Problem komiwojażera w realnym świecie, na rzeczywistej mapie (tutaj Niemiec)

Pydantic or dataclasses?
Dwie wygodne biblioteki, dwa podejścia – jak przemieszczać się między nimi?

#r

How to Add GA to Shiny Apps
Tworzysz aplikacje w R/Shiny i nie wiesz ilu mają użytkowników? Albo co konkretnie robią ci użytkownicy w aplikacji? „Wystarczy” podpiąć Google Analytics i dane zebrane. Jak wstawić kody GA?

#wizualizacja_danych

How to Create a Multi-Layer Gantt Chart Using Plotly
Jeśli robisz jakiekolwiek zestawienia dotyczące zadań ułożonych w czasie (na przykład projektów) to zapewne znasz wykres Gantta. A jeśli go znasz to możesz chcieć go użyć – tutaj na przykładzie Pythona i Plotly

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)