Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
#ai_ml
TacticAI: an AI assistant for football tactics
Czy AI zmieni sposób gry w piłkę nożną? Zobacz czym owocuje współpraca FC Liverpool z DeepMind należącym do Google
Live Object Detection and Image Segmentation with YOLOv8
Jak działa YOLOv8? I jak szybko, z gotowych klocków, użyć tego algorytmu?
#analiza_danych_koncepcje
Personalized Audiobook Recommendations at Spotify Through Graph Neural Networks
Autor opisuje/recenzuje publikację mówiącą o modelach rekomendacyjnych zbudowanych przez Spotify, mających na celu proponowaniu użytkownikom podcastów i audiobooków
#analiza_danych_projekty
Monte Carlo Simulation for Time Series Probabilistic Forecasts
O tym ile może wynieść kurs akcji za 200 dni. „Ja się nie pytam ile można zarobić, ja się pytam ile można stracić”
The Optimal Craft of Movie Shooting Schedule using ORTools
Produkcja filmu to przede wszystkim kręcenie scen. To oznacza, że trzeba w jednym miejscu zgromadzić wszystkich potrzebnych aktorów. Ale wołanie jednego aktora co drugi dzień oznacza, że za dni przerwy trzeba mu zapłacić, więc lepiej jego sceny kręcić „ciągiem” – dzień po dniu. Jak ułożyć to wszytko (pod różnymi aspektami), żeby było najtaniej, najbardziej efektywnie, najbardziej… Sami przeczytajcie! I film – w tym przypadku – nie różni się od układania grafiku czy planu lekcji.
Dune — A Hidden Network
Kto z kim w Diunie? Czyli sieć społecznościowa zbudowana z treści książki albo scenariusza.
#architektura
How Figma’s Databases Team Lived to Tell the Scale
Figma to ogromny serwis, który musi mieć dużo danych. Jak poradzono sobie ze skalowaniem baz danych przechowywujących te dane? O pomysłach na skalowanie baz danych.
#bazy_danych
How to use PostgreSQL for geoanalytics tasks
Ciekawe wykorzystanie PostgreSQL do analizy danych geograficznych. Korzystając między innymi z Open Street Map oraz narzędzia osm2pgsql
How We Made Real-Time Data Aggregation in Postgres Faster by 50,000%
Dowiedz się, jak przyspieszono agregację danych w czasie rzeczywistym w PostgreSQL o 50 tysięcy procent (!). Dane znajdują się w widoku zmaterializowanym oraz w tabelach, do których przychodzą nowe rekordy.
#ciekawostki
Which Is Harder: A Man Running a Marathon Under 3:00 or a Woman Under 3:30?
Tutaj nie chodzi o odpowiedź na to pytanie, a sposób analizy problemu i dojścia do odpowiedzi. Ciekawy tekst o tym, jak poszukiwać odpowiedzi w danych.
Logarithm: A logging engine for AI training workflows and services
Meta (Facebook) zbudował sobie framework do zarządzania logami i przede wszystkim wyciągania wniosków z logów, wręcz do uczenia się z nich. Zobacz jak ;-)
#data_engineering
The Past, Present and Future of Stream Processing
Kai Waehner pisze właściwie tylko o danych strumieniowych, ich przetwarzaniu, rozwiązaniach typu Kafka czy Flink. To jeden z wielu jego tekstów, gdzie zbiera wszystko razem pokazując za i przeciw. Właściwie więcej nie musicie go czytać ;-)
Incremental Data Loading Strategies
Kilka podejść do przyjmowania nowych danych do naszego pełnego zbioru. Problem dość popularny i standardowy jednocześnie – dane raczej zawsze będą przybywać.
#mlops
Streamline ML Workflow with MLflow
Zapewne już znasz jakieś podstawy MLFlow, a przynajmniej przydałyby się do przejścia tego tekstu. Tutaj bowiem dowiesz się jak użyć Model Registry – jak zapisać w nim model, ale przede wszystkim jak z niego model pobrać i wykorzystać np. w API.
#programowanie_ogólnie
DuckDB as the new JQ
DuckDB to uniwersalny silnik bazodanowy, którego stałym czytelnikom nie trzeba przedstawiać. JQ to z kolei narzędzie do operacji na plikach JSON. Czy pierwsze jest w stanie zastąpić drugie? I jak?
#python
Advanced Looping Concepts with the Itertools Module
Pakiet Itertools kryje kilka ciekawostek związanych z – jak sama nazwa wskazuje – iteracjami w różnych potrzebach (cyklicznie, nieskończenie – to tylko proste przykłady).
Build Extensible and Composable CLI Apps
Można napisać fajnego notebooka w Jupiterze, można w jednej z „cellek” zmieniać wartości i tym samym parametry, ale w wywołaniach z konsoli tego nie użyjemy. Dlatego warto poznać sposoby na obsługę parametrów podawanych z linii poleceń. Przykłady oparte na pakiecie Click.
Code Autodocumentation
Najnudniejsze w pisaniu kodu jest tworzenie dokumentacji. Można sobie pomóc…
Some hidden treasures of Pandas library
Kilka nieoczywistych możliwości, o których Pandas nie podejrzewacie. Lista dataclass jako data frame – petarda!
The Impact of Operation Sequence
I jeszcze trochę o Pandas – wiesz, że zmiana kolejności wykonywania operacji może drastycznie zmienić prędkość całego procesu zmian?
Authenticate the User via Facebook
Jak umożliwić logowanie do aplikacji napisanej w Django kontem Facebooka? Rozwiązanie to tokeny JWT
Mastering the Composite Design Pattern in Python
Wzorce projektowe to takie szwajcarskie scyzoryki – na każdy problem właściwie jakiś istnieje. Dzisiaj coś dla struktur hierarchicznych – wzorzec Kompozyt.
uv: The Blazingly Fast Python Package Manager
Manager pakietów i środowisk wirtualnych dla Pythona – uv. Szybki, wygodny.
The Blazingly Fast Python Linter and Formatter
Mamy uv jako managera pakietów, poznajmy też Ruff – formater kodu. Łączy w jedno takie narzędzia jak Flake8, isort czy Black. Tak, jest exstension do VSCode
#wizualizacja_danych
Mastering Circular Visualization in Python with Pycirclize
Wykresy oparte na okręgu – wygląda to efektownie, czasem nawet poprawia czytelność (np. chord diagrams). Jak to przygotować?
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)