Newsletter Dane i Analizy, 2023-11-06

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Odcinek przeprowadzkowy, gdyż miniony tydzień (a nawet dwa) to jedno wielkie urwanie głowy. Cały tydzień minął mi pod hasłem „przeprowadzka”, a to jak pewnie możecie się domyślać czas spędzony na pakowaniu, na rozpakowywaniu i (co najgorsze dla pracownika umysłowego ;-) noszeniu paczek. Szczerze mówiąc jakieś 20, może 30 procent rzeczy trafiło do utylizacji. A niby człowiek sprząta i pozbywa się na bieżąco.

Ale nie poddajemy się i życie trwa, newsletter wychodzi, a żona dała radę też nagrać odcinek swojego programu o książkach (już z pustego mieszkania). Jeśli interesuje Was literatura to serdecznie polecam Znalezione przeczytane.

Jednak już wszystko na swoim miejscu (na sensowne miejsce pracy jeszcze niestety muszę poczekać… do kolejnej przeprowadzki…) i ten tydzień już powinien być normalny – szczególnie na fanpage’u.

#airflow

Mistakes I Have Seen When Data Teams Deploy Airflow
Czy Airflow jest lekiem na całe zło? Czy za każdym razem jego użycie ma sens?

Airflow DockerOperator: End-to-End Machine Learning Pipeline with Docker Operator
Niespełna kwadrans na YouTube o tym jak z AirFlow uruchamiać obrazu Dockerowe.

#analiza_danych_koncepcje

Which Data Format to Use For Your Big Data Project?
Pickle, Parquet, CSV, Feather, HDF5, ORC, JSON – który format do jakich danych?

Streamlining Repetitive Tasks During Exploratory Data Analysi
Analiza danych, w szczególności taka wstępna (jakie są rozkłady zmiennych, czy wartości są unikalne, ile jest braków itd.) to jest powtarzalna i szczerze mówiąc nudna robota. Są do tego gotowe biblioteki, a można też samemu przygotować kawałek kodu. Jak w tym tekście.

#devops

The Book of Secret Knowledge
Być może IT to wiedza tajemna, a taka wiedza (przynajmniej w filmach) ma swoją „księgę całej wiedzy”. Mamy taką księgę, oto ona.

After N years I’m finally using Tmux in such an elegant way
Tmux to tzw. terminal multiplexer, czyli narzędzie do efektywnego zarządzania oknami, ale w terminalu i do tego w trybie tekstowym. Autor wyjaśnia, jak bardzo użycie takiego narzędzia wpływa na jego pracę i efektywność, a także jak bardzo zmieniło to jego codzienny workflow.

#kafka

How to flexibly connect micro services with Kafka data streams
Praktyczny przykład jak dane z topiku Kafka zrzucić do bazy danych MySQL

Real-Time Message Ingestion to Big Data Platform
Tutaj zaś zrzucanie danych z Kafki do Hadoopa, tym razem przez Kafka Connect

#programowanie_ogólnie

How to (and how not to) design REST APIs
Dziesięć dobrych rad dotyczących projektowania REST API

#python

6 Common Index-Related Operations You Should Know about Pandas
Indeksy w pandasowych data frame’ach – osobiście ich nie lubię i nie widzę w nich użytku. Ale być może Ty masz inne zdanie (albo chcesz zmienić obecne?). W każðym razie as_index w groupby() to przydatne ustrojstwo…

Unlocking the Power of assign() in Pandas
Pandasowa metoda assign() jako sposób na tworzenie nowych kolumn w data frame.

Demystifying Matplotlib
Co jest czym na wykresach tworzonych w Matplotlib?

A guide to matplotlib subfigures for creating complex multi-panel figures
Wiele wykresów na jednym obrazku – jak to ogarnąć w Matplotlib?

Your Data Science Visualizations Will Never Be The Same
Szybkie wprowadzenie do Dash i Plotly jako sposobu na przygotowanie interaktywnych dashboardów. Więcej klepania kodu niż w Streamlit, ale też większe możliwości

API Gateway Pattern and FastAPI
API Gateway – jeden punkt wejściowy do różnych API, realizowanych przez różne mikroserwisy. Jak to zbudować w FastAPI?

Building a Basic Blog Post CRUD API
CRUDy (API pozwalające na „współpracę” z obiektami w bazie danych: tworzenie, czytanie, zmianę i usuwanie) to chyba najczęstsze kawałki kodu tworzone na świecie. Oto gotowiec w Pythonie (jeden z wielu możliwych)

Python for Data Engineers
Zaawansowane techniki przetwarzania danych dla inżynierów danych – wprowadzenie do Pythona

#r

Grouped Barplot With Error Bars in R
Oznaczenie błędów na wykresach słupkowych, dla wielu kategorii.

#sql

How to use SQL to create pivot tables?
Tabele przestawne w Excelu to chleb powszedni (po tym jak się już ich nauczysz i zrozumiesz ;-). Ale w SQLu?

#wizualizacja_danych

How to Create a Time Series Network Graph Visualization in Python
Jak sieć (taka np. społeczna) ewoluuje w czasie?

Alternative Visualizations for Data-Driven Storytelling
Domyślnie przygotowując wizualizację danych zaczynamy od wykresów słupkowych, liniowych i (niestety) kołowych. A gdby wyjść z tego pudełka? Kilka inspirujących pomysłów

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)