Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Odcinek przeprowadzkowy, gdyż miniony tydzień (a nawet dwa) to jedno wielkie urwanie głowy. Cały tydzień minął mi pod hasłem „przeprowadzka”, a to jak pewnie możecie się domyślać czas spędzony na pakowaniu, na rozpakowywaniu i (co najgorsze dla pracownika umysłowego ;-) noszeniu paczek. Szczerze mówiąc jakieś 20, może 30 procent rzeczy trafiło do utylizacji. A niby człowiek sprząta i pozbywa się na bieżąco.
Ale nie poddajemy się i życie trwa, newsletter wychodzi, a żona dała radę też nagrać odcinek swojego programu o książkach (już z pustego mieszkania). Jeśli interesuje Was literatura to serdecznie polecam Znalezione przeczytane.
Jednak już wszystko na swoim miejscu (na sensowne miejsce pracy jeszcze niestety muszę poczekać… do kolejnej przeprowadzki…) i ten tydzień już powinien być normalny – szczególnie na fanpage’u.
#airflow
Mistakes I Have Seen When Data Teams Deploy Airflow
Czy Airflow jest lekiem na całe zło? Czy za każdym razem jego użycie ma sens?
Airflow DockerOperator: End-to-End Machine Learning Pipeline with Docker Operator
Niespełna kwadrans na YouTube o tym jak z AirFlow uruchamiać obrazu Dockerowe.
#analiza_danych_koncepcje
Which Data Format to Use For Your Big Data Project?
Pickle, Parquet, CSV, Feather, HDF5, ORC, JSON – który format do jakich danych?
Streamlining Repetitive Tasks During Exploratory Data Analysi
Analiza danych, w szczególności taka wstępna (jakie są rozkłady zmiennych, czy wartości są unikalne, ile jest braków itd.) to jest powtarzalna i szczerze mówiąc nudna robota. Są do tego gotowe biblioteki, a można też samemu przygotować kawałek kodu. Jak w tym tekście.
#devops
The Book of Secret Knowledge
Być może IT to wiedza tajemna, a taka wiedza (przynajmniej w filmach) ma swoją „księgę całej wiedzy”. Mamy taką księgę, oto ona.
After N years I’m finally using Tmux in such an elegant way
Tmux to tzw. terminal multiplexer, czyli narzędzie do efektywnego zarządzania oknami, ale w terminalu i do tego w trybie tekstowym. Autor wyjaśnia, jak bardzo użycie takiego narzędzia wpływa na jego pracę i efektywność, a także jak bardzo zmieniło to jego codzienny workflow.
#kafka
How to flexibly connect micro services with Kafka data streams
Praktyczny przykład jak dane z topiku Kafka zrzucić do bazy danych MySQL
Real-Time Message Ingestion to Big Data Platform
Tutaj zaś zrzucanie danych z Kafki do Hadoopa, tym razem przez Kafka Connect
#programowanie_ogólnie
How to (and how not to) design REST APIs
Dziesięć dobrych rad dotyczących projektowania REST API
#python
6 Common Index-Related Operations You Should Know about Pandas
Indeksy w pandasowych data frame’ach – osobiście ich nie lubię i nie widzę w nich użytku. Ale być może Ty masz inne zdanie (albo chcesz zmienić obecne?). W każðym razie as_index w groupby() to przydatne ustrojstwo…
Unlocking the Power of assign() in Pandas
Pandasowa metoda assign() jako sposób na tworzenie nowych kolumn w data frame.
Demystifying Matplotlib
Co jest czym na wykresach tworzonych w Matplotlib?
A guide to matplotlib subfigures for creating complex multi-panel figures
Wiele wykresów na jednym obrazku – jak to ogarnąć w Matplotlib?
Your Data Science Visualizations Will Never Be The Same
Szybkie wprowadzenie do Dash i Plotly jako sposobu na przygotowanie interaktywnych dashboardów. Więcej klepania kodu niż w Streamlit, ale też większe możliwości
API Gateway Pattern and FastAPI
API Gateway – jeden punkt wejściowy do różnych API, realizowanych przez różne mikroserwisy. Jak to zbudować w FastAPI?
Building a Basic Blog Post CRUD API
CRUDy (API pozwalające na „współpracę” z obiektami w bazie danych: tworzenie, czytanie, zmianę i usuwanie) to chyba najczęstsze kawałki kodu tworzone na świecie. Oto gotowiec w Pythonie (jeden z wielu możliwych)
Python for Data Engineers
Zaawansowane techniki przetwarzania danych dla inżynierów danych – wprowadzenie do Pythona
#r
Grouped Barplot With Error Bars in R
Oznaczenie błędów na wykresach słupkowych, dla wielu kategorii.
#sql
How to use SQL to create pivot tables?
Tabele przestawne w Excelu to chleb powszedni (po tym jak się już ich nauczysz i zrozumiesz ;-). Ale w SQLu?
#wizualizacja_danych
How to Create a Time Series Network Graph Visualization in Python
Jak sieć (taka np. społeczna) ewoluuje w czasie?
Alternative Visualizations for Data-Driven Storytelling
Domyślnie przygotowując wizualizację danych zaczynamy od wykresów słupkowych, liniowych i (niestety) kołowych. A gdby wyjść z tego pudełka? Kilka inspirujących pomysłów
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)