Newsletter Dane i Analizy, 2024-07-22

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Tomek zwrócił się do mnie z prośbą o przekazanie informacji o jego książce (e-booku). Otóż napisał ogromną ilość tekstu (ze 100 stron) na temat tego jak budować projekty data science w Pythonie. Jak układać pliki w folderach, jak zarządzać wymaganiami, jak zarządzać prerekwizytami typu dane czy też wynikowe wykresy, predykcje, modele. Jest też o automatycznym formatowaniu i sprawdzaniu kodu przy użyciu Ruff oraz dość sporo o notatnikach Jupytera. Normalnie książka coś kosztuje (30 zł), ale dla Was – do 5 sierpnia – jest za darmo, o tutaj.

Dzisiaj kilka tekstów o YOLO – modelach detekcji obiektów na obrazach. Jak poszczególne wersje różnią się od siebie oraz jak korzystać z gotowych modeli we własnym kodzie w Pythonie. Oprócz deep learningu i computer vision znajdziecie też kilka innych ciekawych projektów ML/AI.

A skoro rozwiązania są tworzone to powinny być używane, prawda? Więc w dziale DevOps jak zwykle o tym co przy wdrożeniach się przydaje (nawet jeśli to tylko triki w Zsh).

#ai_ml

YOLOv10: Revolutionizing Real-Time Object Detection
Sieć z rodziny YOLO (You Only Look Once) w dziesiątej wersji. Co się zmieniło między wersjami?

YOLO inference with Docker via API
A jeśli już mowa o YOLO – zbudujmy sobie API, które z użyciem YOLO (tutaj v8) rozpozna obiekty na obrazkach.

Mastering Image Segmentation: UNet, UNeTR, SegNet, Attention-UNet, VNet, SwinUNETR, and DeepLab
Wiele sposobów (rodzajów sieci) na segmentację obrazów.

#analiza_danych_koncepcje

Jaki model AI wybrać: wyzwania i rozwiązania?
Praktyczne podejście do oceny modeli LLM. Materiał dostępny w formie tekstu oraz podcastu (na YT oraz innych platformach – 1h15m)

Stop using Moving Average to smooth your Time Series
W skrócie: filtr Savitzky’ego-Golay’ego sprawdza się dużo lepiej.

#analiza_danych_projekty

What Are Monte Carlo Methods? How to Predict the Future with Python Simulations
Metody Monte Carlo to potężne narzędzia, które pomagają programistom i inżynierom rozwiązywać trudne problemy w różnych dziedzinach. W tym artykule dowiesz się, jak te metody wykorzystują losowość do przybliżonego rozwiązywania problemów, a także jak je zastosować w praktyce za pomocą Pythona i TensorFlow.

Simulating Wildfires in a Forest
Symulacja pożaru lasu. Czyli o automatach komórkowych razem z kodem w Pythonie

How to build a Neural Network with real-world dataset using PyTorch
Tutorial pokazujący jak na danych z opaski FitBit zbudować i wytrenować sieć neuronową w PyTorch. Rzeczywiste dane, rzeczywisty problem.

AI, Write and Style My CV
Użyce agentów i LLM do czytana i pisania CV..

#big_data

Deploying Trino with Apache Ranger and Superset on Kubernetes
Skonteneryzowane środowisko analityczne do właściwie każdych danych (do których umie się dostać Apache Trino) – tutorial jak je przygotować.

#ciekawostki

Bypassing Cloudflare with Cloudscraper
Jeśli pobieracie dane z interenetu możecie napotkać na ograniczenia związane z serwerami schowanymi za Cloudflare. Z pomocą przychodzi wówczas pythonowy pakiet Cloudscraper (chociaż nie zawsze on wystarczy – od tygodnia walczę z tym co działa lokanie ale po wrzuceniu na serwer przestaje)

#devops

Multi-Arch Raspberry Pi Kubernetes Cluster
Malina jako podstawa do zbudowania domowego klastra. Najlepiej kilka Malin.

The Zsh Shell Tricks I Wish I’d Known Earlier
Zsh to świetna nakładka na Shella, ale czy znasz wszystkie sztuczki czy ograniczasz się do ładnego widoku swojej linii poleceń?

#management

Lessons learned in 35 years of making software
Autor podzielił się ważnymi lekcjami, które wyniósł ze swojej wieloletniej pracy, m.in. o tym, że warto budować relacje, dbać o swoją widoczność w firmie, być gotowym do nowych wyzwań i kilka innych. Mało techniczne porady, ale za to ważne dla rozwoju w branży.

#mlops

MLOps with Jenkins, MLFlow, Docker, GitHub, and AWS EC2
MLOps definiuje się jako magiczną mieszankę automatyzacji, konteneryzacji i sporadycznej frustracji. Tutaj znajdziecie dokładny przewodnik o tym, jak napisać kod który sam zadba o jakość modelu.

#python

Querying 1TB on a laptop with Python dataframes
W Pandas jest prosto – całe dane muszą zmieścić się w pamięci, a najlepiej jak masz jej 5-10 razy więcej niż danych. Ale mamy czasy big data i co teraz? Teraz DuckDB, opakowany w nowy pakiet – ibis.

Python for Big Data
Podstawowe elementy big data: Spark, HDFS, Hive, Kafka. Jak zacząć ich używać z poziomu Pythona?

#r

A Spotify-themed interactive Quarto Dashboard
Interaktywny pulpit nawigacyjny Quarto, który wyświetla playlistę „Najpopularniejsze dzisiejsze hity” ze Spotify w formie tabeli. Pulpit zawieta także wbudowany odtwarzacz internetowy Spotify, dzięki czemu możesz słuchać utworów bezpośrednio w przeglądarce. Warto prześledzić kod źródłowy w R

#spark

PySpark Explained: User-Defined Functions
UDF – funkcje, których brakuje w Sparku możemy sobie stworzyć sami.

#sql

Car Insurance Policy Analysis
Jak analizować biznesowe dane o ubezpieczeniach? Kilka pomysłów, od razu z gotowymi rozwiązaniami w SQLu

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)