Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Tomek zwrócił się do mnie z prośbą o przekazanie informacji o jego książce (e-booku). Otóż napisał ogromną ilość tekstu (ze 100 stron) na temat tego jak budować projekty data science w Pythonie. Jak układać pliki w folderach, jak zarządzać wymaganiami, jak zarządzać prerekwizytami typu dane czy też wynikowe wykresy, predykcje, modele. Jest też o automatycznym formatowaniu i sprawdzaniu kodu przy użyciu Ruff oraz dość sporo o notatnikach Jupytera. Normalnie książka coś kosztuje (30 zł), ale dla Was – do 5 sierpnia – jest za darmo, o tutaj.
Dzisiaj kilka tekstów o YOLO – modelach detekcji obiektów na obrazach. Jak poszczególne wersje różnią się od siebie oraz jak korzystać z gotowych modeli we własnym kodzie w Pythonie. Oprócz deep learningu i computer vision znajdziecie też kilka innych ciekawych projektów ML/AI.
A skoro rozwiązania są tworzone to powinny być używane, prawda? Więc w dziale DevOps jak zwykle o tym co przy wdrożeniach się przydaje (nawet jeśli to tylko triki w Zsh).
#ai_ml
YOLOv10: Revolutionizing Real-Time Object Detection
Sieć z rodziny YOLO (You Only Look Once) w dziesiątej wersji. Co się zmieniło między wersjami?
YOLO inference with Docker via API
A jeśli już mowa o YOLO – zbudujmy sobie API, które z użyciem YOLO (tutaj v8) rozpozna obiekty na obrazkach.
Mastering Image Segmentation: UNet, UNeTR, SegNet, Attention-UNet, VNet, SwinUNETR, and DeepLab
Wiele sposobów (rodzajów sieci) na segmentację obrazów.
#analiza_danych_koncepcje
Jaki model AI wybrać: wyzwania i rozwiązania?
Praktyczne podejście do oceny modeli LLM. Materiał dostępny w formie tekstu oraz podcastu (na YT oraz innych platformach – 1h15m)
Stop using Moving Average to smooth your Time Series
W skrócie: filtr Savitzky’ego-Golay’ego sprawdza się dużo lepiej.
#analiza_danych_projekty
What Are Monte Carlo Methods? How to Predict the Future with Python Simulations
Metody Monte Carlo to potężne narzędzia, które pomagają programistom i inżynierom rozwiązywać trudne problemy w różnych dziedzinach. W tym artykule dowiesz się, jak te metody wykorzystują losowość do przybliżonego rozwiązywania problemów, a także jak je zastosować w praktyce za pomocą Pythona i TensorFlow.
Simulating Wildfires in a Forest
Symulacja pożaru lasu. Czyli o automatach komórkowych razem z kodem w Pythonie
How to build a Neural Network with real-world dataset using PyTorch
Tutorial pokazujący jak na danych z opaski FitBit zbudować i wytrenować sieć neuronową w PyTorch. Rzeczywiste dane, rzeczywisty problem.
AI, Write and Style My CV
Użyce agentów i LLM do czytana i pisania CV..
#big_data
Deploying Trino with Apache Ranger and Superset on Kubernetes
Skonteneryzowane środowisko analityczne do właściwie każdych danych (do których umie się dostać Apache Trino) – tutorial jak je przygotować.
#ciekawostki
Bypassing Cloudflare with Cloudscraper
Jeśli pobieracie dane z interenetu możecie napotkać na ograniczenia związane z serwerami schowanymi za Cloudflare. Z pomocą przychodzi wówczas pythonowy pakiet Cloudscraper (chociaż nie zawsze on wystarczy – od tygodnia walczę z tym co działa lokanie ale po wrzuceniu na serwer przestaje)
#devops
Multi-Arch Raspberry Pi Kubernetes Cluster
Malina jako podstawa do zbudowania domowego klastra. Najlepiej kilka Malin.
The Zsh Shell Tricks I Wish I’d Known Earlier
Zsh to świetna nakładka na Shella, ale czy znasz wszystkie sztuczki czy ograniczasz się do ładnego widoku swojej linii poleceń?
#management
Lessons learned in 35 years of making software
Autor podzielił się ważnymi lekcjami, które wyniósł ze swojej wieloletniej pracy, m.in. o tym, że warto budować relacje, dbać o swoją widoczność w firmie, być gotowym do nowych wyzwań i kilka innych. Mało techniczne porady, ale za to ważne dla rozwoju w branży.
#mlops
MLOps with Jenkins, MLFlow, Docker, GitHub, and AWS EC2
MLOps definiuje się jako magiczną mieszankę automatyzacji, konteneryzacji i sporadycznej frustracji. Tutaj znajdziecie dokładny przewodnik o tym, jak napisać kod który sam zadba o jakość modelu.
#python
Querying 1TB on a laptop with Python dataframes
W Pandas jest prosto – całe dane muszą zmieścić się w pamięci, a najlepiej jak masz jej 5-10 razy więcej niż danych. Ale mamy czasy big data i co teraz? Teraz DuckDB, opakowany w nowy pakiet – ibis.
Python for Big Data
Podstawowe elementy big data: Spark, HDFS, Hive, Kafka. Jak zacząć ich używać z poziomu Pythona?
#r
A Spotify-themed interactive Quarto Dashboard
Interaktywny pulpit nawigacyjny Quarto, który wyświetla playlistę „Najpopularniejsze dzisiejsze hity” ze Spotify w formie tabeli. Pulpit zawieta także wbudowany odtwarzacz internetowy Spotify, dzięki czemu możesz słuchać utworów bezpośrednio w przeglądarce. Warto prześledzić kod źródłowy w R
#spark
PySpark Explained: User-Defined Functions
UDF – funkcje, których brakuje w Sparku możemy sobie stworzyć sami.
#sql
Car Insurance Policy Analysis
Jak analizować biznesowe dane o ubezpieczeniach? Kilka pomysłów, od razu z gotowymi rozwiązaniami w SQLu
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)