Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Dzisiaj sporo materiałów z ulubionej chyba działki redaktora naczelnego, czyli coś o data engineeringu (najlepiej opakowanym w Pythona). Mamy więc bardzo fajny tekst o tym jak śledzić autobusy szkolne – w wielu polskich miastach pojazdy komunikacji miejskiej wyposażona są w nadajniki GPS, co pozwala na śledzenie ich w czasie rzeczywistym (warszawskie dane są dostępne na przykład tutaj (link do dokumentacji w PDF) czy też ogólnie na stronie WWW).
Nieco więcej niż zwykle dzisiaj o języku R – o tym jak z jego pomocą szybko przygotować atrakcyjne dashboardy z kodu oraz o tym, że mamy odpowiednik tidyverse dla prac z modelami machine learning.
Na koniec zbiór inspiracji w dziedzinie wizualizacji (rym niezamierzony, ale atrakcyjny, prawda? :) poświęconych zakończonym przed tygodniem Igrzyskom Olimpijskim w Paryżu. Kilka ciekawych zestawień i danych przed Wami.
#analiza_danych_koncepcje
Optimizing Marketing Campaigns with Budgeted Multi-Armed Bandits
Kilka wersji kampanii reklamowej – jak wybrać najbardziej skuteczną? Z pomocą przychodzi algorytm wielorękiego bandyty
#architektura
School Bus Tracker System Architecture
Jak zaprojektować architekturę rozwiązania śledzącego gdzie jest szkolny autobus (jeden z wielu) i kto nim jedzie?
How to Document Software Architecture: Techniques and Best Practices
Jak dokumentować architekturę aplikacji? Omówienie kilku technik i najlepszych praktyk
#bezpieczeństwo
Leaked Secrets and Unlimited Miles: Hacking the Largest Airline and Hotel Rewards Platform
Artykuł szczegółowo opisuje proces odkrycia i wykorzystania luki w API serwisu Points.com, pozwalającej na dostęp do danych milionów użytkowników. Autor przedstawia krok po kroku metodologię testowania bezpieczeństwa, od rekonesansu po wykorzystanie podatności. To cenne źródło wiedzy dla pentesterów i programistów webowych.
#big_data
How does Notion handle 200 billion data entities?
Jak Notion trzyma swoje dane? Droga od PostgreSQL (96 instancji) do data lake.
6 Open Source Tools to Query OpenStreetMap
Lubimy Open Street Maps, bo jest tam cała masa danych. A jak po nie sięgnąć? Sześć sposobów.
Must-Know Techniques for Handling Big Data in Hive
Kilka unikalnych cech Hive w porównaniu do standardowego SQLa.
Avoid Building a Data Platform in 2024
Dlaczego artykuły na temat „budowania platformy danych” są w większości wprowadzające w błąd?
#ciekawostki
Od zera do Product Managera w Data Science.
Od zera do Product Managera w Data Science. „Jak zacząłem budować produkty oparte o ML?” – opowiada gość webinaru DataWorkshop. YT, około 100 minut, po polsku.
Scaling One Million Checkboxes to 650,000,000 checks
Aplikacja „One Million Checkboxes” niespodziewanie zyskała dużą popularność. Początkowo stworzona w 2 dni, szybko przyciągnęła tysiące użytkowników i miliony requestów. Autor opisał, jak stopniowo optymalizował architekturę i infrastrukturę, by utrzymać działanie aplikacji, która w ciągu 2 tygodni obsłużyła ponad 650 milionów interakcji. Polecana lektura dla zainteresowanych optymalizacją aplikacji webowych.
Full of Themselves: An analysis of title drops in movies
Tytułowy „title drop” to moment, kiedy postać w filmie wypowiada tytuł filmu, w którym się znajduje. Oto analiza na dużą skalę, obejmująca 73 921 filmów z ostatnich 80 lat, badająca, jak często, kiedy i być może dlaczego to się zdarza.
#data_engineering
Mastering Data Streaming in Python
W tym artykule omówiono główne wyzwania, z którymi mogą się spotkać inżynierowie danych podczas projektowania strumieniowych potoków danych w Pythonie. Asynchroniczne przetwarzanie danych przez API i rozwiązania strumieniowe, a do tego przetwarzanie w oknach czasowych.
#devops
How to Deploy ML Solutions with FastAPI, Docker, and GCP
Budujemy swoje API, ubieramy je w Dockerfile i chcemy uruchomić na Google Cloud Platform. Tylko jak? Oto tutorial prowadzący za rękę.
#python
How to Plot in the Terminal with Python and Textualize
Czy da się w terminalu narysować wykres?
Introducing Time Series in pandas
A jak w Pandas zajmować się datami?
Mastering Python’s Asyncio: A Practical Guide
Asynchroniczne sposoby na przetwarzanie danych, pobieranie ich przez HTTP czy też obsługę plików. Pigułka podstawowej wiedzy.
Monitoring Windows usage in Python: A Step-by-Step Guide
Dowiedz się, jak monitorować i rejestrować użycie systemu Windows za pomocą Pythona – krok po kroku. Od pobierania tytułu aktywnego okna i szczegółów procesu po ciągłe śledzenie i rejestrowanie zmian w czasie rzeczywistym.
#r
Quarto dashboard creation and automation
Coś o budowaniu dashboardów w R za pomocą frameworku Quarto (kawałki kodu wplecione w dokument Markdown). Jeśli nie znasz RMarkdown albo Quarto właśnie – zobacz koniecznie.
R tidymodels: A tidyverse Like Ecosystem for Efficient Machine Learning in R
Chyba każdy zajmujący się danymi w R zna paczkę tidyverse – wszystko co potrzebne do przekształcania danych i ich wizualizacji w nim znajdziecie. A obok – dla tych, którzy chcą robić ML w R – jest tidymodels z podobną filozofią.
#wizualizacja_danych
Olympic medal tracker variations
Zbiór kilku wizualizacji (krótki opis i linki do pełnych treści) poświęconych wynikom klasyfikacji medalowej po Igrzyskach Olimpijskich w Paryżu. Ku inspiracji.
Stars of the 2024 Paris Olympics
Skoro mamy klasyfikację medalową to może zobaczmy co można powiedzieć o poszczególnych sportowcach? I nie tylko.
Step-by-Step Guide for Building Interactive Calendars in Plotly
Plotly to biblioteka do tworzenia interaktycznych wykresów (w Pythonie, R, JS itp.) ale nie ma w niej komponentu kalendarza. W tym tekście znajdziesz przykład jak sprytnie wykorzystać heatmapę do zbudowania kalendarza świąt (z kodem w Pythonie).
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)