Newsletter Dane i Analizy, 2024-08-19

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Dzisiaj sporo materiałów z ulubionej chyba działki redaktora naczelnego, czyli coś o data engineeringu (najlepiej opakowanym w Pythona). Mamy więc bardzo fajny tekst o tym jak śledzić autobusy szkolne – w wielu polskich miastach pojazdy komunikacji miejskiej wyposażona są w nadajniki GPS, co pozwala na śledzenie ich w czasie rzeczywistym (warszawskie dane są dostępne na przykład tutaj (link do dokumentacji w PDF) czy też ogólnie na stronie WWW).

Nieco więcej niż zwykle dzisiaj o języku R – o tym jak z jego pomocą szybko przygotować atrakcyjne dashboardy z kodu oraz o tym, że mamy odpowiednik tidyverse dla prac z modelami machine learning.

Na koniec zbiór inspiracji w dziedzinie wizualizacji (rym niezamierzony, ale atrakcyjny, prawda? :) poświęconych zakończonym przed tygodniem Igrzyskom Olimpijskim w Paryżu. Kilka ciekawych zestawień i danych przed Wami.

#analiza_danych_koncepcje

Optimizing Marketing Campaigns with Budgeted Multi-Armed Bandits
Kilka wersji kampanii reklamowej – jak wybrać najbardziej skuteczną? Z pomocą przychodzi algorytm wielorękiego bandyty

#architektura

School Bus Tracker System Architecture
Jak zaprojektować architekturę rozwiązania śledzącego gdzie jest szkolny autobus (jeden z wielu) i kto nim jedzie?

How to Document Software Architecture: Techniques and Best Practices
Jak dokumentować architekturę aplikacji? Omówienie kilku technik i najlepszych praktyk

#bezpieczeństwo

Leaked Secrets and Unlimited Miles: Hacking the Largest Airline and Hotel Rewards Platform
Artykuł szczegółowo opisuje proces odkrycia i wykorzystania luki w API serwisu Points.com, pozwalającej na dostęp do danych milionów użytkowników. Autor przedstawia krok po kroku metodologię testowania bezpieczeństwa, od rekonesansu po wykorzystanie podatności. To cenne źródło wiedzy dla pentesterów i programistów webowych.

#big_data

How does Notion handle 200 billion data entities?
Jak Notion trzyma swoje dane? Droga od PostgreSQL (96 instancji) do data lake.

6 Open Source Tools to Query OpenStreetMap
Lubimy Open Street Maps, bo jest tam cała masa danych. A jak po nie sięgnąć? Sześć sposobów.

Must-Know Techniques for Handling Big Data in Hive
Kilka unikalnych cech Hive w porównaniu do standardowego SQLa.

Avoid Building a Data Platform in 2024
Dlaczego artykuły na temat „budowania platformy danych” są w większości wprowadzające w błąd?

#ciekawostki

Od zera do Product Managera w Data Science.
Od zera do Product Managera w Data Science. „Jak zacząłem budować produkty oparte o ML?” – opowiada gość webinaru DataWorkshop. YT, około 100 minut, po polsku.

Scaling One Million Checkboxes to 650,000,000 checks
Aplikacja „One Million Checkboxes” niespodziewanie zyskała dużą popularność. Początkowo stworzona w 2 dni, szybko przyciągnęła tysiące użytkowników i miliony requestów. Autor opisał, jak stopniowo optymalizował architekturę i infrastrukturę, by utrzymać działanie aplikacji, która w ciągu 2 tygodni obsłużyła ponad 650 milionów interakcji. Polecana lektura dla zainteresowanych optymalizacją aplikacji webowych.

Full of Themselves: An analysis of title drops in movies
Tytułowy „title drop” to moment, kiedy postać w filmie wypowiada tytuł filmu, w którym się znajduje. Oto analiza na dużą skalę, obejmująca 73 921 filmów z ostatnich 80 lat, badająca, jak często, kiedy i być może dlaczego to się zdarza.

#data_engineering

Mastering Data Streaming in Python
W tym artykule omówiono główne wyzwania, z którymi mogą się spotkać inżynierowie danych podczas projektowania strumieniowych potoków danych w Pythonie. Asynchroniczne przetwarzanie danych przez API i rozwiązania strumieniowe, a do tego przetwarzanie w oknach czasowych.

#devops

How to Deploy ML Solutions with FastAPI, Docker, and GCP
Budujemy swoje API, ubieramy je w Dockerfile i chcemy uruchomić na Google Cloud Platform. Tylko jak? Oto tutorial prowadzący za rękę.

#python

How to Plot in the Terminal with Python and Textualize
Czy da się w terminalu narysować wykres?

Introducing Time Series in pandas
A jak w Pandas zajmować się datami?

Mastering Python’s Asyncio: A Practical Guide
Asynchroniczne sposoby na przetwarzanie danych, pobieranie ich przez HTTP czy też obsługę plików. Pigułka podstawowej wiedzy.

Monitoring Windows usage in Python: A Step-by-Step Guide
Dowiedz się, jak monitorować i rejestrować użycie systemu Windows za pomocą Pythona – krok po kroku. Od pobierania tytułu aktywnego okna i szczegółów procesu po ciągłe śledzenie i rejestrowanie zmian w czasie rzeczywistym.

#r

Quarto dashboard creation and automation
Coś o budowaniu dashboardów w R za pomocą frameworku Quarto (kawałki kodu wplecione w dokument Markdown). Jeśli nie znasz RMarkdown albo Quarto właśnie – zobacz koniecznie.

R tidymodels: A tidyverse Like Ecosystem for Efficient Machine Learning in R
Chyba każdy zajmujący się danymi w R zna paczkę tidyverse – wszystko co potrzebne do przekształcania danych i ich wizualizacji w nim znajdziecie. A obok – dla tych, którzy chcą robić ML w R – jest tidymodels z podobną filozofią.

#wizualizacja_danych

Olympic medal tracker variations
Zbiór kilku wizualizacji (krótki opis i linki do pełnych treści) poświęconych wynikom klasyfikacji medalowej po Igrzyskach Olimpijskich w Paryżu. Ku inspiracji.

Stars of the 2024 Paris Olympics
Skoro mamy klasyfikację medalową to może zobaczmy co można powiedzieć o poszczególnych sportowcach? I nie tylko.

Step-by-Step Guide for Building Interactive Calendars in Plotly
Plotly to biblioteka do tworzenia interaktycznych wykresów (w Pythonie, R, JS itp.) ale nie ma w niej komponentu kalendarza. W tym tekście znajdziesz przykład jak sprytnie wykorzystać heatmapę do zbudowania kalendarza świąt (z kodem w Pythonie).

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)