Newsletter Dane i Analizy, 2022-10-03

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

W tym tygodniu nieco mniejsza liczba tekstów, ale chyba bardziej rozbudowanych niż zwykle.

Szczególnie polecam tekst pierwszy 2022 Data Science Research Round-Up, ale też przykłady i porównanie różnych algorytmów do topic modelingu czy też całą praktycznie sekcję poświęconą Pythonowi.

Być może ktoś z Was przegapił na fanpage’u Dane i analizy: klikalny generator zapytań SQL – świetna sprawa do nauki ale też zapewne może przyspieszyć pracę.

#analiza_danych_koncepcje

2022 Data Science Research Round-Up
Przegląd najciekaszych zagadnień związanych z machine learning. deep learnig, NLP z ostatnich miesięcy. Tylko wstęp, każde opisane jest dalej w podlinkowanych materiałach

Deep dive into Confusion Matrix
Wszystkie miary modeli klasyfikacyjnych – od błędów pierwszego i drugiego rodzaju przez F1 i inne

7 Best Practices for Data Ingestion
Sprawdzone metody pozyskiwania danych

Explain Any Machine Learning Model in Python
Wprowadzenie do SHAP i wartości Shapley’a – jak wytłumaczyć dlaczego model mówi to co mówi?

Machine Learning for Fraud Detection in Streaming Services
Detekcja oszustw wprost na strumieniu danych?

#analiza_danych_projekty

Topic Modeling – a Comparison
Porównanie różnych metod rozpoznawania i określania tematów o jakich są poszczególne teksty. Z przykładami w Pythonie

From Dev to Deployment: An End to End Sentiment Classifier App
MLFlow w praktycznym zastosowaniu, w projekcie NLP

#bazy_danych

The 5 SQL transforms to Start Using
Trochę mniej znane transformacje danych z użyciem SQL, ale bardzo przydatne

#big_data

Data Warehouse Tech Stack with PostgreSQL, DBT, Airflow, and Redash
Celem jest zaprojektowanie i zbudowanie hurtowni danych dla wydziału ruchu miejskiego

#ciekawostki

How to leverage RSS feeds to inform the possibilities with Elastic Stack
Czytnik kanałów RSS w stacku ELK? Można. Przykład pokazuje jak i nawet sensowne zastosowanie (o ile dla kogoś „da się” nie jest wystarczające)

#kafka

When NOT to use Apache Kafka?
Apache Kafka to de facto standard w komunikacji strumieniowej czy ogólnie „danych w ruchu”. Ale są sytuacjie, kiedy Kafka nie powinna być używana

#management

Design Principles for Data Analysis
A gdyby proces analizy danych projektować? Przyjąć określone zasady i według nich postępować?

#python

Super Flexible Matplotlib Structure for Subplots
Wiele wykresów na jednym obrazku

Streamlit + FastAPI – The ingredients you need for your next Data Science Recipe
Streamlit to open-source’owy framework powzalający szybko budować webowy interface dla aplikacji, najlepiej chyba sprawdza się przy dashboardach. FastAPI to jak nazwa mówi – framework do pisania API. Jak można oba połączyć? Dla rozpoznających te zagadnienia

Apache Airflow: How to Dynamically Fetch Data and Email?
Przechwyć dane i najnowsze wyślij mailem. Przykład z użyciem Apache Airflow

Automate PowerPoint Slides Creation with Python
„Maszynki” robiące powtarzalne rzeczy to pierwsza rzecz którą zajmuje się każdy kto chociaż pół roku robił raporty ;-) Albo w grę wchodzi VBA, albo jakieś przejściowe excele coś przeliczające… ja miałem nawet pliki ppt zaciągające dane z excela. A wystarczy Python (albo R)

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)