Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Pod koniec lutego „ukazał” się zbiór danych (pochodzących najprawdopodobniej z serwisu rynekpierwotny.pl) zawierający całkiem sporo ofert nowych mieszkań (i nie tylko). Zbiór o tyle interesujący, że ze współrzędnymi oferowanych lokalizacji. Na LinkedIn wrzuciłem na szybko przygotowaną mapkę wynikającą z tego zbioru, ale planuję coś większego: e-mailowy cykl (3-4 maile, pewnie co tydzień) pokazujący co z tymi danymi można zrobić. Na pewno napiszę o tym w newsletterze, na pewno napiszę o tym na LinkedIn – zatem zapraszam do obserwowania. Na fanpage’u Dane i Analizy też będzie o tym info, więc też warto obserwować.
Żeby było ciekawiej – dość podobny temat porusza jeden z dzisiejszych postów, jakie znajdziesz poniżej – ten o kebabach – to doskonały przykład praktycznego zastosowania analizy danych.
Ważny społecznie dzisiaj temat, który znajdziesz poniżej to raport „Internet dzieci” pokazujący jak najmłodsi naprawdę korzystają z internetu. Niektóre statystyki nie dziwią, niektóre zaskakują i to bardzo.
PostgreSQL jest do wszystkiego. Ten niespełna 10 minutowy film to udowadnia ;-) PostgreSQL może też zastąpić MongoDB… jak? Poszukaj niżej o FerretDB.
Andrej Karpathy, jeden z najważniejszych ekspertów AI, dzieli się swoimi doświadczeniami z codziennego używania LLM-ów – od prostych interakcji po zaawansowane zastosowania.
Dla zainteresowanych architekturą systemów, zespół Zalando prezentuje, jak przeprojektowali swoje podejście, aby stworzyć interfejs API obsługujący miliony żądań na sekundę.
Na deser polecam tekst o projektowaniu skutecznych wizualizacji danych, które nie wprowadzają odbiorców w błąd.
Spodobał Ci się ten newsletter? Prześlij go dalej znajomym, którzy mogliby być zainteresowani tymi tematami! A jeśli otrzymałeś to od kogoś i chcesz regularnie otrzymywać podobne treści, zapisz się do newslettera tutaj.
W zeszłym tygodniu najchętniej czytaliście:
20 Important Statistical Approaches Every Data Scientist Knows 3 Foundational Principles for Writing Efficient SQL I Dropped SQL for NoSQL. Our App Now Handles 5x the Traffic
#ai_ml
Poznaj AI. Praktyka, narzędzia, ciekawostki – szkolenie sekurak.pl
Szkolenie przeznaczone jest dla każdego, kto chciałby płynnie i bezboleśnie wkroczyć do świata narzędzi AI. W materiale zaprezentowano kilkadziesiąt różnych usług sieciowych wykorzystujących AI. Masa inspiracji! YT, 2h20m, po polsku.
AI może więcej, niż myślimy i mniej niż nam się wydaje
Rozmowa o roli sztucznej inteligencji w programowaniu, szczególnie w kontekście wykorzystania modeli językowych oraz narzędzi wspierających codzienną pracę programistów. YT, 2h11m, po polsku.
Mastering Hugging Face Models
Artykuł dotyczy praktycznych aspektów pracy z modelami Hugging Face. Omawia różne sposoby pobierania, zarządzania i dostosowywania modeli. Autor przedstawia metody pobierania modeli, modyfikowania lokalizacji przechowywania oraz strukturę folderów używaną przez Hugging Face. Niezależnie od specjalizacji w NLP czy wizji komputerowej, tekst zapewnia jasny przewodnik dotyczący efektywnego wykorzystania tych narzędzi.
Practical Guide to Distilling Large Models into Small Models
Modele destylowane zyskują ostatnio na popularności. Tekst wyjaśnia, czym jest destylacja modeli i jak ją przeprowadzić. Opisuje metody destylacji tradycyjnej i destylacji krok po kroku w celu nauki poprzez wiedzę nauczyciela. Proponuje również ulepszoną metodę destylacji krok po kroku, poprawiającą stabilność i wydajność nauki.
#analiza_danych_projekty
„The closer to the train station, the worse the kebab” – A „Study”
„Najlepsze kasztany są na placu Pigalle”, a czy najgorsze kebaby są w okolicy stacji kolejowych? Tezę z Reddita autor postanowił zweryfikować naukowo. W badaniu wykorzystał dane mapowe z Open Street Map oraz oceny restauracji kebabowych z Google Maps, aby sprawdzić, czy lokalizacja wpływa na jakość serwowanego jedzenia.
Demand Forecasting Model with TensorFlow
Artykuł prezentuje, jak wstępnie przetwarzać dane, budować model LSTM i optymalizować prognozy popytu dla logistyki. Cały proces został omówiony krok po kroku, ze szczególnym uwzględnieniem wszystkich istotnych detali.
#architektura
From Event-Driven Chaos to a Blazingly Fast Serving API
Post opisuje, w jaki sposób zespół Zalando (tam pracuje około tysiąc osób w IT, dasz wiarę?!) przeprojektował swoją architekturę i zbudował niezwykle wydajny interfejs API zdolny do obsługi milionów żądań na sekundę z jednocyfrowymi opóźnieniami w milisekundach. Tekst omawia strategie buforowania, optymalizacje opóźnień i decyzje architektoniczne, które umożliwiły osiągnięcie takiej wydajności.
DDD: These aren’t the bounded context you’re looking for
Domain-Driven Design nie polega na dostosowywaniu biznesu do technologii, lecz na budowaniu aplikacji wokół rzeczywistych potrzeb biznesowych. Artykuł podkreśla, że właściwa kolejność działań to: zrozumieć, modelować, a dopiero potem implementować.
#bazy_danych
Postgres as a Graph Database: (Ab)using pgRouting
pgRouting to rozszerzenie Postgres, które zazwyczaj służy do znajdowania „najkrótszej ścieżki” między dwiema lokalizacjami. Tekst prezentuje pgRouting jako ukryty klejnot w ekosystemie Postgres, który może być wykorzystywany do realizacji podstawowych funkcji grafowych.
FerretDB
Wiemy, że PostgreSQL jest do wszystkiego (we wstępie do tego numeru znajdziesz odpowiedni film na ten temat). FerretDB umożliwia płynne korzystanie ze sterowników MongoDB z PostgreSQL jako zapleczem bazy danych. Rozwiązanie to wpisuje się w trend wszechstronności PostgreSQL i zasługuje na bliższe zapoznanie się.
#ciekawostki
Internet Dzieci
Ponad połowa dzieci w wieku 7-12 lat aktywnie korzysta z przynajmniej jednego serwisu społecznościowego lub komunikatora dozwolonego od 13. roku życia. „Internet dzieci” to pierwszy raport z monitoringu aktywności dzieci i młodzieży w internecie.
#data_engineering
YouTube Trend Analysis Pipeline: ETL with Airflow, Spark, S3 and Docker
Artykuł omawia proces tworzenia zautomatyzowanego potoku ETL z wykorzystaniem Apache Airflow i PySpark do przetwarzania danych dotyczących trendów wideo z YouTube Data API.
#llm_&_chatgpt
How I use LLMs
Andrej Karpathy, jeden z czołowych ekspertów w dziedzinie AI, pokazuje, w jaki sposób sam korzysta z modeli językowych w swojej pracy. Prezentacja obejmuje zakres od prostych interakcji w ChatGPT po zaawansowane techniki, takie jak analiza danych, generowanie kodu czy przetwarzanie obrazów i wideo. YT, 2h11m, po angielsku.
#python
The Secret Life of __init__.py
Artykuł wprowadza w tematykę pliku __init__.py w Pythonie i ukazuje jego rolę w organizacji kodu. Ten przewodnik dla początkujących programistów opisuje, w jaki sposób ten niepozorny plik może przekształcić chaotyczne projekty w eleganckie struktury i dostarcza narzędzi do pisania czystszego kodu.
Praktyczny przewodnik po budowie aplikacji w Pythonie [autopromocja]
Chcesz nauczyć się programowania w Pythonie na rzeczywistym projekcie? Marzysz o tym, aby stać się programistą, który nie tylko zna teorię, ale potrafi wykorzystać ją w praktyce? Ta książka to Twoja wiedza z zakresu programowania w Pythonie, poparta doświadczeniem zdobytym przez budowę własnej aplikacji do śledzenia kursów walut. Jest fragment, zobaczy czy Ci odpowiada. I wyślij znajomym!
Mastering Python Project Management with UV: MLOps
Repozytorium zawiera opis, w jaki sposób narzędzie UV może usprawnić przepływy pracy MLOps. Materiał obejmuje konfigurowanie projektu, zarządzanie zależnościami, implementację CI/CD za pomocą GitHub Actions oraz kompilację i wdrażanie z użyciem Dockera.
Writing Custom Middleware for Logging, Monitoring, and Enhanced Security
Artykuł wyjaśnia, jak oprogramowanie pośredniczące (Middleware) w FastAPI umożliwia przechwytywanie i przetwarzanie żądań oraz odpowiedzi w celu zwiększenia bezpieczeństwa, rejestracji aktywności i monitorowania wydajności aplikacji.
Guide to Uber’s H3 for Spatial Indexing
System indeksowania przestrzennego H3 firmy Uber, oparty na siatce heksagonalnej, zapewnia wydajną analizę i zapytania geoprzestrzenne. Przewodnik omawia instalację, funkcje i zastosowania H3 dla twórców aplikacji geoprzestrzennych. Tekst prezentuje rzeczywiste przypadki użycia H3, takie jak uczenie maszynowe, reagowanie na katastrofy i monitorowanie środowiska, wraz z przykładami kodu wyjaśniającymi poszczególne elementy.
#wizualizacja_danych
How to Design Data Visualizations That Work
Źle wizualizowane dane wprowadzają w błąd. Osobiście dedykuję to hasło pewnej firmie, która przeprowadza badania zaangażowania dla korporacji, w szczególności osobie robiącej slajdy z wynikami… Może przyda się kilka prostych zasad, pokazujących jak prezentować dane, aby w błąd nie wprowadzały i były zrozumiałe dla odbiorców?
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)