Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Zbieranie i magazynowanie danych – to typowe projekty, którymi zajmują się inżynierowie danych. Ale obszar data engineeringu jest na tyle obszerny, że co tydzień właściwie coś tutaj możecie znaleźć. Dzisiaj dwa takie projekty-tutoriale: zbieranie informacji z YouTube oraz ogólnie z jakiegoś strumienia danych. W obu przypadkach używane są różne technologie.
A jak już mamy te dane, to kto powinien się zająć ich obróbką na „ostatniej mili” – baza czy kod? O tym też dzisiaj przeczytacie.
I na koniec, po zgromadzeniu danych i ich przetworzeniu możemy zająć się przygotowaniem rozwiązań ML/AI. W dzisiejszym numerze będzie to ruch na drogach w Norwegii (swoją drogą ponad 660 kamer podglądających ruch online… jak widać jedne państwa potrafią udostępniać dane, inne nie) z wykorzystaniem sieci CNN oraz historia tych sieci.
Nie zapominamy, że trwa Euro, więc coś dla lubiących football a jeszcze bardziej analizę danych i wszelakie zestawienia związane z turniejem też coś ciekawego się znajdzie. Opta Analyst robi robotę (nie tylko w piłce).
#ai_ml
The History of Convolutional Neural Networks for Image Classification (1989 – Today)
Historia sieci CNN i architektury kolejnych modeli do klasyfikacji obrazu. Czym się różnią od siebie, jakie zmiany zachodziły na przestrzeni czasu? Czyta się to niczym „Historię Techniki” :)
Monitor Traffic in Norway
W Norwegii istnieje system pokazujący na żywo ruch na ponad 660 web-kamerach. Autor opisuje jak przygotował model określający poziom natężenia ruchu ulicznego w oparciu o przykładowe kamery. I gotowe rozwiązania.
#analiza_danych_koncepcje
Data Drift: 6 Ways to Address a Drop in ML Performance
A jeśli nagle dane się zaczynają zmieniać, a przez to pogarszają się wskaźniki jakości naszych modeli?
#architektura
Two Coordination Patterns in Distributed Architectures
Choreografia i orkiestracja – dwa typy architektury omówione w jednym tekście.
#bazy_danych
JSONB in PostgreSQL and Its Daily Uses
Postgres to potężny silnik bazodanowy, przy okazji pozwalający trzymać coś na kształt dokumentów (niczym bazy NoSQL jak Mongo). Jak korzystać z tych „dokumentowych” cech?
From Zero to dbt
Olbrzymi zbiór danych (ponad 30 GB, więcej w pierwszej części tekstu – link w treści) przygotowany do analizy z użyciem dbt i DuckDB
#ciekawostki
Visually Simulating the Three-Body Problem on Python
Niedawno popularnym był serial „Problem trzech ciał”. Ale nie o serialu jest ten tekst, a o rzeczywistym, znanym z fizyki „problemie trzech ciał” i jego symulacji. Trochę matematyki, trochę fizyki, trochę programowania.
#data_engineering
SQL or Python for Data Transformations?
Kto powinien się zająć przetwarzaniem danych: baza czy kod? Rozważania o jednym i drugim podejściu.
A Recap of the Data Engineering Open Forum at Netflix
Netflix to nie tylko filmy, ale też (co dla nas ciekawsze) ciekawa technologia. W kwietniu Netflix zorganizował „Data Engineering Open Forum” i tutaj znajdziecie podsumowanie tego wydarzenia (razem z prelekcjami, trzymanymi u konkurencji na YouTube)
YouTube Data Harvesting and Warehousing
Zbierz dane z kanałów na YouTube i je przeanalizuj – o tym jest ten tutorial, chociaż analiza zebranych danych nie jest jego najmocniejszą stroną. Warto jednak zobaczyć jak poprzez API YouTube pozyskać informacje i zachować je w bazie danych.
How I Dockerized Apache Flink, Kafka, and PostgreSQL for Real-Time Data Streaming
Prawie co tydzień w newsletterze jest podobny projekt – dane przesyłane strumieniem na Kafkę, zbierane z niej do jakiegoś „storage’u” i z niego na przykład raportowane na dashboardach. Dzisiaj podobne, ale po drodze z Apache Flinkiem. Ubranym w Pythona (nie wiedzieć czemu)
#devops
How to switch kubectl clusters between gcloud and minikube
Typowa sytuacja – domowy Kubernetes do testów (lokalnie, na minikube) oraz Google Cloud (GKE) do produkcji. Jak przełączać się między jednym a drugim środowiskiem?
Prometheus-Grafana. It all starts with Monitoring
A jak już mamy lokalnego Kubernetesa to chcielibyśmy zapewne go monitorować, prawda? Najpopularniejsze rozwiązanie to para Prometheus i Grafana. Zobacz jak je zainstalować na lokalnym klastrze K8s korzystając z Helma.
#programowanie_ogólnie
Gitflow: The Art of Branch Management
Nie tyle o samej filozofii GitFlow o ile o użyciu narzędzia upraszczającego pracę zgodnie z tą filozofią
#python
Scientific Python Lectures
Python dla naukowców… a może bardziej do obliczeń takich bardziej technicznych? Potężna dawka wiedzy z podstaw
Creating a Streamlit App for Satellite Imagery Visualization
Stosunkowo prosta, ale nie banalna aplikacja w Streamlicie – przeglądanie zdjęć satelitarnych oraz zliczanie występujących na nich kolorów. Tutorial nauczy Cię jak pobrać zdjęcie z zewnętrznej usługi API, przeliczyć „zawartość” zdjęcia, a wszystko ubrać w zgrabne GUI
FastAPI: From app.py to a Modular Architecture
Proste REST API napisane może być w postaci jednego pliku .py. Ale z czasem być może zostanie rozbudowane? Albo od początku wiemy, że będzie podzielone na wiele domen? Wówczas warto zastosować routingi i kontrolery? To o nich jest ten tutorial
#wizualizacja_danych
Euro 2024: My Favourite Data Viz From The Tournament
Jak pokazywane jest Euro 2024 przez różne media? Opta Analyst rozwala system (i twierdzi, że Hiszpania w finale wygrywa z Anglią), a serwis TheAnalyst.com to nowe FiveThirtyEight.com (które zajmuje się już tylko polityką)
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)