Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
W tym tygodniu nieco mniejsza liczba tekstów, ale chyba bardziej rozbudowanych niż zwykle.
Szczególnie polecam tekst pierwszy 2022 Data Science Research Round-Up, ale też przykłady i porównanie różnych algorytmów do topic modelingu czy też całą praktycznie sekcję poświęconą Pythonowi.
Być może ktoś z Was przegapił na fanpage’u Dane i analizy: klikalny generator zapytań SQL – świetna sprawa do nauki ale też zapewne może przyspieszyć pracę.
#analiza_danych_koncepcje
2022 Data Science Research Round-Up
Przegląd najciekaszych zagadnień związanych z machine learning. deep learnig, NLP z ostatnich miesięcy. Tylko wstęp, każde opisane jest dalej w podlinkowanych materiałach
Deep dive into Confusion Matrix
Wszystkie miary modeli klasyfikacyjnych – od błędów pierwszego i drugiego rodzaju przez F1 i inne
7 Best Practices for Data Ingestion
Sprawdzone metody pozyskiwania danych
Explain Any Machine Learning Model in Python
Wprowadzenie do SHAP i wartości Shapley’a – jak wytłumaczyć dlaczego model mówi to co mówi?
Machine Learning for Fraud Detection in Streaming Services
Detekcja oszustw wprost na strumieniu danych?
#analiza_danych_projekty
Topic Modeling – a Comparison
Porównanie różnych metod rozpoznawania i określania tematów o jakich są poszczególne teksty. Z przykładami w Pythonie
From Dev to Deployment: An End to End Sentiment Classifier App
MLFlow w praktycznym zastosowaniu, w projekcie NLP
#bazy_danych
The 5 SQL transforms to Start Using
Trochę mniej znane transformacje danych z użyciem SQL, ale bardzo przydatne
#big_data
Data Warehouse Tech Stack with PostgreSQL, DBT, Airflow, and Redash
Celem jest zaprojektowanie i zbudowanie hurtowni danych dla wydziału ruchu miejskiego
#ciekawostki
How to leverage RSS feeds to inform the possibilities with Elastic Stack
Czytnik kanałów RSS w stacku ELK? Można. Przykład pokazuje jak i nawet sensowne zastosowanie (o ile dla kogoś „da się” nie jest wystarczające)
#kafka
When NOT to use Apache Kafka?
Apache Kafka to de facto standard w komunikacji strumieniowej czy ogólnie „danych w ruchu”. Ale są sytuacjie, kiedy Kafka nie powinna być używana
#management
Design Principles for Data Analysis
A gdyby proces analizy danych projektować? Przyjąć określone zasady i według nich postępować?
#python
Super Flexible Matplotlib Structure for Subplots
Wiele wykresów na jednym obrazku
Streamlit + FastAPI – The ingredients you need for your next Data Science Recipe
Streamlit to open-source’owy framework powzalający szybko budować webowy interface dla aplikacji, najlepiej chyba sprawdza się przy dashboardach. FastAPI to jak nazwa mówi – framework do pisania API. Jak można oba połączyć? Dla rozpoznających te zagadnienia
Apache Airflow: How to Dynamically Fetch Data and Email?
Przechwyć dane i najnowsze wyślij mailem. Przykład z użyciem Apache Airflow
Automate PowerPoint Slides Creation with Python
„Maszynki” robiące powtarzalne rzeczy to pierwsza rzecz którą zajmuje się każdy kto chociaż pół roku robił raporty ;-) Albo w grę wchodzi VBA, albo jakieś przejściowe excele coś przeliczające… ja miałem nawet pliki ppt zaciągające dane z excela. A wystarczy Python (albo R)
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)