Zrób sobie lakehouse na laptopie

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

W dzisiejszym wydaniu dominują tematy z pogranicza AI, data engineeringu i praktyk inżynierskich. Szczególną uwagę poświęcamy agentom AI – od pisania skutecznych CLAUDE.md i budowy prostych agentów kodujących w 200 liniach, po zaawansowany monitoring autonomicznych systemów i wzorce projektowe dla inteligentnych aplikacji.

W sekcji data engineering znajdziesz konkretne rozwiązania: od wzorców partycjonowania przyspieszających zapytania, przez budowę lokalnego pipeline’u ELT z DuckDB i dbt (bez kosztów chmury), aż po kompletny przewodnik tworzenia lakehouse’a z Apache Iceberg, Trino i MinIO. Nie zabrakło też materiałów przygotowujących do rozmów rekrutacyjnych – 10 kluczowych tematów system design dla data engineerów w 2026 roku.

Dla programistów Pythona – praktyczna zmiana paradygmatu w pracy z Pandas (przestań myśleć wierszowo, zacznij kolumnowo), a dla miłośników ML – realny przykład użycia XGBoost od surowych danych do produkcji oraz skalowalna alternatywa dla t-SNE działająca w czasie liniowym.

Dodatkowo: zaawansowana konfiguracja Airflow, wzorce DuckDB z Kafka, 7 praktyk MLflow Model Registry oraz ciekawostka tygodnia – skandal wokół rzekomej publikacji kodu źródłowego aplikacji mObywatel. Na deser – plebiscyt na najgorszy wykres roku 2025, czyli szczepionka na manipulację danymi w mediach.

ai_agent

Writing a good CLAUDE.md
Modele językowe są bezstanowe – agent kodujący wie o projekcie tylko to, co umieścisz w kontekście. CLAUDE.md wprowadza AI w projekt przy każdej rozmowie, ale Claude często go ignoruje. Jak pisać skutecznie? Mniej instrukcji to większa efektywność. Skup się na WHY, WHAT i HOW projektu – zwięźle. Twórz plik ręcznie, nie generuj go automatycznie.

The Emperor Has No Clothes: How to Code Claude Code in 200 Lines of Code
Asystenci AI do kodowania wydają się magią, ale ich rdzeń to ~200 linijek prostego Pythona. Cała sztuczka to pętla: wiadomość → LLM decyduje o narzędziu → wykonanie lokalne → wynik wraca → konwersacja trwa dalej. LLM nigdy nie dotyka bezpośrednio systemu plików, tylko prosi o zmiany. Wystarczą trzy narzędzia: czytanie, listowanie i edycja plików. Produkcyjne agenty oferują więcej funkcji, ale te trzy podstawowe operacje wystarczą do zbudowania funkcjonalnego agenta kodującego od podstaw.

AI Agent Monitoring: Operational Guide (Part 1)
Monitoring autonomicznych agentów wymaga innego podejścia niż obserwacja pojedynczych modeli. Śledź sekwencje stanów i działań agenta, interakcje z zewnętrznymi narzędziami oraz długofalowe efekty decyzji – nie tylko accuracy i latency. Specyficzne ryzyka: reward hacking (model dąży do maksymalizacji wyznaczonego mu celu, ale robi to w sposób, którego nie przewidzieliśmy), dryf zachowań. Warstwowa architektura obejmuje: instrumentację (prompty, akcje, kontekst), testy syntetyczne, metryki wynikowe i bezpieczeństwa, alerty oraz pipeline’y do wersjonowania i audytu.

Agentic Design Patterns: A Hands-On Guide to Building Intelligent Systems
Zbiór wzorców projektowych dla autonomicznych agentów AI zdolnych do podejmowania złożonych działań. Materiał skupia się na praktycznych schematach implementacji z uwzględnieniem modularności, reużywalności i elastyczności kodu. Ułatwia tworzenie systemów zdolnych do samodzielnego podejmowania decyzji i adaptacji. Wartościowy materiał dla inżynierów pracujących nad zaawansowanymi aplikacjami AI.

ai_ml

A Linear-Time Alternative To t-SNE for Dimensionality Reduction and Fast Visualisation
Skalowalna metoda redukcji wymiarowości działająca w czasie liniowym względem liczby punktów. Osiąga porównywalną jakość wizualizacji z t-SNE przy znacznie niższych kosztach obliczeniowych. Kluczowe elementy: konstrukcja przybliżonego grafu k-NN, sformułowanie celu zachowującego podobieństwa lokalne oraz optymalizacja przez negatywne próbkowanie z użyciem asynchronicznego SGD. Umożliwia efektywne osadzanie milionów punktów i mniejsze zużycie pamięci.

Analiza jakości punktów adresowych PRG za pomocą sieci neuronowych GNN [PL]
Analiza jakości punktów adresowych w Państwowym Rejestrze Geograficznym (PRG) z wykorzystaniem grafowych sieci neuronowych (GNN). Pozwalają one na efektywne modelowanie przestrzennych i topologicznych relacji między obiektami geograficznymi. Metoda umożliwia wykrywanie nieścisłości oraz błędów w danych adresowych, poprawiając ich integralność i wiarygodność. Zaawansowane narzędzie wspierające walidację i uzupełnianie rejestrów geoinformacyjnych.

How to Build a GitHub Code-Analyser Agent for Developer Productivity
Budowa inteligentnego agenta do analizy kodu źródłowego na GitHubie z wykorzystaniem API, narzędzi do analizy statycznej oraz technik NLP. Proces obejmuje pobieranie repozytoriów, analizę jakości kodu, wykrywanie wzorców i potencjalnych błędów oraz generowanie raportów wspierających efektywne zarządzanie jakością. Kompleksowe omówienie poszczególnych etapów wdrożenia i stosowanych technologii.

🔓 XGBoost in Action: A Real Dataset Walkthrough
Praktyczne zastosowanie algorytmu XGBoost na rzeczywistym zbiorze danych – krok po kroku od przygotowania surowych danych przez inżynierię cech i trenowanie modelu, aż do oceny skuteczności. Wyjaśnienie kluczowych aspektów działania XGBoost: tuning parametrów oraz sposoby interpretacji wyników. Wartościowe źródło wiedzy dla programistów i analityków zajmujących się modelowaniem predykcyjnym i machine learningiem.

airflow

airflow.cfg: Advanced Configuration, Performance Tuning and Production Best Practices
Kompendium ustawień airflow.cfg o największym wpływie na wydajność i stabilność: wybór executora i parametry, kluczowe opcje schedulera (częstotliwość parsowania DAGów, heartbeat), ograniczenia parallelism i dag_concurrency, dopasowanie worker_concurrency i sql_alchemy_pool_size. Dodatkowo: konfiguracja Celery, zalety KubernetesExecutor, redukcja obciążenia schedulera (DAG serialization, deferrable operators), zdalne logowanie, utrzymanie metadata DB. Checklisty produkcyjne: monitoring, backupy, sekrety, minimalizacja kodu w DAGach.

ciekawostki

Rzekoma publikacja kodu źródłowego aplikacji mObywatel [PL]
Polski rząd miał publikować kod źródłowy mObywatela (nakazuje to ustawa). Zamiast tego otrzymaliśmy kilka procent plików o najmniejszym znaczeniu – jak publikację wzorników tabliczek zamiast dokumentacji lokomotywy. Minister Gawkowski i wiceminister Gramatyka wolą robić z obywateli idiotów, niż powiedzieć wprost: uważamy transparentność za szkodliwą. Po co nam pełny kod źródłowy? Bo tylko wtedy niezależni eksperci mogą zweryfikować, że aplikacja nie realizuje ukrytych celów – i budować długoterminowe zaufanie do e-usług publicznych.

data_engineering

7 Must-Know Data Partitioning & Bucketing Patterns That Supercharge Query Performance
Praktyczny zbiór wzorców przyspieszania zapytań: partycjonowanie po kolumnach używanych w filtrach (szczególnie data), partycjonowanie zakresowe dla wartości numerycznych, hash partitioning i bucketowanie dla równomiernego rozkładu i optymalizacji joinów, hybryda partition+bucket (np. czas+user_id), ograniczanie liczby partycji dla uniknięcia drobnych plików i inne. Dla każdego wzorca: kiedy stosować i jakie są kompromisy (koszty ładowania, metadane, wydajność).

🔓 Lakehouse Chronicles: Medallion Architecture meets Kimball Modelling
Integracja architektury medallion w podejściu lakehouse z klasycznym modelowaniem Kimballa pokazuje, jak nowoczesne rozwiązania data lake łączą się z dobrze znanymi zasadami hurtowni danych. Etapy przetwarzania: od surowych źródeł przez warstwy oczyszczania i wzbogacania, aż po przygotowanie danych analitycznych zgodnych z modelami wymiarowymi. Takie podejście łączy elastyczność i skalowalność lakehouse z przejrzystością oraz standaryzacją modelu Kimballa.

🔓 10 DuckDB Catalog Habits That Make Teams Fly
Efektywne wykorzystanie DuckDB w zespołach data science i analitycznych wymaga przestrzegania dziesięciu kluczowych praktyk: utrzymywanie porządku w katalogu danych, systematyczne wersjonowanie, unikanie duplikacji, jasne nazewnictwo tabel i kolumn oraz automatyzacja w zarządzaniu zasobami. Przestrzeganie tych zasad pozwala zespołom lepiej skalować projekty, minimalizować błędy i szybciej generować wartościowe wnioski.

Build a Data Lakehouse with Apache Iceberg, Polaris, Trino & MinIO
Kompletny przewodnik budowy lakehouse’a od podstaw: Apache Iceberg jako format z ACID, Polaris jako katalog metadanych, Trino jako silnik SQL oraz MinIO jako storage kompatybilny z S3. Gotowe komendy, pliki konfiguracyjne i praktyki produkcyjne – partycjonowanie, kompaktacja, time travel. Dla zespołów planujących przejście z klasycznego data lake na kontrolowany lakehouse z SQL i rozdziałem storage od compute.

How I Structure My Data Pipelines
Praktyczne, warstwowe podejście do budowy pipeline’ów danych: jasny podział na ingestion, staging, transformacje i gotowe marty, preferowanie ELT z dbt oraz orkiestracji z Airflow, stosowanie CDC/Kafka dla strumieni, projektowanie modeli przyrostowych i partycjonowanych oraz zapewnienie idempotentności, modularności i reużywalności komponentów. Znaczenie testów jakości danych, kontroli schematów i kontraktów, CI/CD dla deployów oraz monitoring, alerting i lineage dla szybkiego wykrywania i naprawy błędów.

10 System Design Topics Every Data Engineer Is Expected to Know in 2026 Interviews
Dziesięć kluczowych obszarów na rozmowy techniczne w 2026: wybór i modelowanie magazynów (od OLTP do lakehouse), formaty i ewolucja schematów (Avro, Parquet, rejestry), partycjonowanie i sharding, replikacja i spójność, messaging i CDC (Kafka, Debezium), przetwarzanie batch i streaming (Spark, Flink, Beam), orkiestracja (Airflow, Dagster), optymalizacja zapytań i silniki analityczne, monitoring, governance, bezpieczeństwo oraz lineage. Koncepcje architektoniczne, praktyczne wskazówki i przykładowe pytania.

Jak rozpocząć pracę z danymi?
Tematy powyżej to chleb powszedni pracującego z danymi, w szczególności Data Engineera. A co jeszcze może być potrzebne w pracy z danymi? O tym piszę w soim ebooku. Jeśli nie rozumiesz pojęc z dzisiejszego maila (a chcesz rozumieć) to jest to materiał dla Ciebie!

How to Build a Local ELT Pipeline with DuckDB and DBT
Inżynieria danych bez karty kredytowej i chmury: nowoczesne transformacje na własnym laptopie. Funkcjonalny pipeline ELT wykorzystujący DuckDB (silnik analityczny) i dbt (transformacje) – wszystko lokalnie, zero kosztów. Architektura „Local Stack”, ładowanie surowych danych Pythonem do DuckDB, konfiguracja dbt-duckdb oraz dedykowane marty dla Sales i Finance. Data engineering bez rachunków z chmury.

devops

The Software 3.0 Gap in Kubernetes
Przejście do Software 3.0 uwidacznia luki w Kubernetes dla ML: standardowe abstrakcje skupiają się na stateless, podczas gdy ML wymaga eksperymentowania, zarządzania stanem, danymi, GPU, rozproszonego treningu i śledzenia metadanych przez cały okres życia. Konkretne problemy: nieoptymalne planowanie GPU, brak prymitywów dla eksperymentów, trudności z wersjonowaniem danych i modeli, słaba observability treningów. Kierunki rozwiązań: domain-specific controllers, workflow APIs, integracja feature store’ów.

kafka

🔓 5 DuckDB + Kafka Micro-Batches That Feel Real-Time
Pięć praktycznych wzorców łączenia DuckDB z Kafka dla quasi-real-time: częste batche do plików kolumnowych, bezpośrednie strumienie do tabel w pamięci przez Arrow, strategie upsertów i kompaktacji dla historii oraz materializacja agregatów dla szybkich zapytań. Dla każdego: założenia, zalety i kompromisy (latencja, koszty, złożoność). Dodatkowo: konkretne wskazówki, kiedy które podejście wybrać w zależności od wymagań trwałości i spójności.

management

Manager’s Playbook
Repozytorium GitHub w formacie playbooka: praktyczny zestaw checklist i szablonów dla managerów technologicznych. Rekrutacja, onboarding, 1:1, feedback, ocena wydajności, priorytetyzacja roadmapy, zarządzanie incydentami i długiem technicznym. Konkretne, gotowe do wdrożenia narzędzia – agendy spotkań, scorecardy, checklisty. Dla nowych liderów i doświadczonych managerów poszukujących sprawdzonych procesów.

mlops

🔓 7 MLflow Model Registry Practices That Age Well
MLflow Model Registry jako centralne, audytowalne źródło prawdy dla modeli: rejestruj wersje z kompletnymi artefaktami i środowiskiem, wymuszaj przejścia między stage’ami przez CI/CD (nie ręcznie), zapisuj metryki, testy i podpisy schematu dla powtarzalności. Czytelne nazewnictwo, tagowanie dla lineage, programowe API do kontroli dostępu, integracja z monitoringiem produkcyjnym i governance. Unikniesz driftu i zapewnisz bezpieczne, powtarzalne wdrożenia.

python

🔓 Pandas Clicked for Me the Day I Stopped Treating DataFrames Like Tables
Przestań myśleć o DataFrame jak o tabeli wierszowej, przejdź do modelu kolumnowego – każda kolumna to Series z operacjami wektorowymi. Zastąp pętle i iterrows wydajnymi konstrukcjami: boolean indexing, groupby z transform/agg, shift, cumsum, melt/pivot, explode, assign oraz pipe. Dodatkowo użycie indeksów dla wydajności. Zmiana paradygmatu pracy z Pandas poprawia czytelność, szybkość i odporność kodu przy pracy z danymi.

wizualizacja_danych

Plebiscyt na najgorszy wykres roku 2025 [PL]
Wykresy potrafią zarówno ujawniać prawdę, jak i ją ukrywać. Gdy trafiają do mediów czy social mediów, stają się potężnym narzędziem manipulacji. Czy różnica jest naprawdę dwukrotna, czy wykres tylko tak sugeruje? Plebiscyt na najgorszy wykres roku to szczepionka na manipulację danymi – 16 kandydatów z polskich mediów, klasyczne błędy oraz lekcja, jak nie dać się nabrać „sprzedawcom nieprawd”. Sprawdź, które wykresy walczą o tytuł mistrza dezinformacji.