Newsletter Dane i Analizy, 2024-04-29

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

#ai_ml

How to Run Llama 3 Locally?
W zeszłym tygodniu nie było nic o Llama 3, zatem dzisiaj instrukcja jak ten najnowszy model językowy od Facebooka uruchomić lokalnie.

#analiza_danych_koncepcje

Fabric Madness: Experiments
Eksperymenty z MLFlow spięte z MS Fabric

Representing Matrices as JSON Objects
Czy macierz można zapisać w JSONie? Pierwszy z serii artykułów na temat kompromisów pomiędzy macierzami a tym formatem plików

#analiza_danych_projekty

Public Transport Accessibility in Python
Analiza danych geograficznych w Pythonie – dostępność komunikacji miejskiej w Budapeszcie. Ale może to być dostępność do restauracji, aptek czy paczkomatów…

End-to-End Machine Learning Project: Churn Prediction
Predykcja odejść klientów. Ale celem prezentacji tego tekstu jest nie tyle sam model co otoczka: aplikacja ubierająca model w API, do tego dający „zjadliwe” dla odbiorcy widoki i konteneryzacja

Weather Prediction with Machine Learning
Dość typowy projekt ML: model i aplikacja do przewidywania pogody.

#bazy_danych

Loading a trillion rows of weather data into TimescaleDB
Bardzo dużo danych zapisywanych do bazy – jak zrobić to jak najbardziej wydajnie, w jak najkrótszym czasie? Porównanie kilku metod

#big_data

Making Overture Maps Data More Efficient With GeoParquet And Apache Sedona
Format do przechowywania danych graficznych GeoParquet oraz Apache Sedona – duet pozwalający na wydajne analizy geo

#data_engineering

Exploring StarCraft 2 data with Airflow, DuckDB and Streamlit
Analiza danych z gry w dość typowy sposób, do zrealizowania w kilka dni: AirFlow pobiera dane, zapisuje do DuckDB, a potem Streamlit pozwala na przeglądanie zgromadzonych informacji.

#devops

Introduction to Multi-Stage Image Build for Python
Warstwowe budowanie obrazów Dockera – w przykładzie finalna wielkość obrazu została zmniejszona o 65%

#java

API Documentation with Spring REST Docs
Jak wygodnie dokumentować API napisane w Sprintu za pomocą Spring REST Docs?

Synchronously Load 100k Records into DB within seconds
Mamy 100 tysięcy rekordów, które chcemy wysłać na Kafkę. Jak to zrobić w bazie?

#kafka

Kafka Producer and Consumer Configuration
Jakie mamy możliwości konfiguracji producenta i konsumenta kafkowego? Często o niektórych opcjach zapominamy, a one są po to aby ustalić konkretne zachowania naszych końcówek nadawczo-odbiorczych

Kafka Monitoring and Management
Ten sam cykl co artykuł wyżej, tym razem o monitorowaniu samej Kafki i tego co dzieje się na jej topikach.

#management

The 37signals Guide to Internal Communication
To Wam się spodoba: „Meetings are the last resort, not the first option”. Czyli jak wygląda komunikacja wewnątrz zespołu w 37signals.

#python

8 Essential Decorators You Should Know
Kilka przydatnych dekoratorów, które mogą się przydać, a na pewno uczą jak je tworzyć

Organizing Python Functions in Utility Classes
Jak łączyć funkcje w większe paczki? Czyli o @staticmethod

How to create a beautiful, interactive dashboard layout in Python with Plotly Dash
Często znajdujecie tutaj artykuły, które pokazują jak zbudować ddashboard w Streamlit. A przed Streamlitem istniał Dash (i nadal istnieje), który pozwala na dużo więcej. I też nieco więcej (kodu) wymaga.

Raw SQL vs SQLAlchemy – 13 Queries For Comparison
Porównanie sposobu wykonania zapytań SQL – czy SQLAlchemy i podejście ORM ułatwia pisanie kodu?

#spark

How to test PySpark code with pytest
Testy jednostkowe są ważną częścią procesu tworzenia oprogramowania. Ale jak je napisać w ramach procesów przetwarzania danych? Kilka przykładów na testy w PySparku

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)