Przejdź do treści

Newsletter Dane i Analizy, 2025-02-10

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Zanim przejdę do sedna, czyli bieżącego numeru, mam dla Ciebie informację. Otóż za moment będzie dostępny kompleksowy e-book typu „od juniora do mida”. Książka to projekt, który kompleksowo przeprowadza przez budowę aplikacji – od komunikacji z API, przez bazę danych, aż po konteneryzację. Bez pierdół teoretycznych, za to z mocnym naciskiem na praktykę. Szczegóły już niedługo w oddzielnym mailu, więc trzymajcie się blisko skrzynki odbiorczej!

A co Cię czeka w tym numerze?

Ciekawy temat z obszaru computer vision – rozpoznawanie chorób roślin, coś przydatne dla rolnictwa, ale prezentuję to jako (jak zawsze) podstawę do budowania własnych rozwiązań i eksperymentowania z prezentowanym kodem. Przy okazji warto zerknąć na tekst „Want to Streamline Your Deep Learning Pipeline?” – to nie sam model, ale cały proces, którego model jest elementem.

W ramach (osobiście mojej ulubionej sekcji – data engineering) projekt „Bike Points” pokazujący, jak zbierać i przetwarzać dane o sieciach rowerowych w czasie rzeczywistym. Airflow, Kafka, Spark – klasyczny zestaw, który zawsze działa.

A czy system działa? Żeby to sprawdzić mam propozycję narzędzi do monitorowania systemu – dstat i btop (którego sam używam, nie licząc Prometheusa i Grafany).

Artykuł „Skąd są twoi znajomi?” to prawdziwa perełka! Szymon przeanalizował więzi społeczne przez pryzmat dawnych granic zaborowych.

Pamiętaj – wiedza to potęga, ale jeszcze większa potęga to umiejętność jej praktycznego użycia! E-book już za moment ;)

W zeszłym tygodniu najchętniej czytaliście:

Integrating DeepSeek into your Python Applications Unit Testing for Data Science with Python Building the Walmart Navigator (Żabka swoje sklepy wystawia z JSONie – użyj DevTools w Chrome to znajdziesz ;)


#ai_ml

A Guide to AWS Textract and Rekognition for Image & Document Processing
W cyfrowym świecie firmy zmagają się z ogromnymi ilościami niestrukturyzowanych danych: obrazami, dokumentami PDF, skanami i ręcznymi notatkami. AWS oferuje Textract i Rekognition – dwie usługi AI, które automatyzują przetwarzanie dokumentów i obrazów przy użyciu zaawansowanego uczenia maszynowego.

Finetuning SAM2 for Leaf Disease Segmentation
Rocznie tracimy około 30% upraw z powodu chorób roślin, co powoduje znaczące straty finansowe. Dlatego dostrojenie modelu Segment Anything Model 2 (SAM2) może być kluczowe w precyzyjnym wykrywaniu i oznakowaniu chorych części liści na zdjęciach.

#analiza_danych_koncepcje

Vector Similarity Search in Graph Databases: Combining Graph Structure with Embeddings
Praktyczne wprowadzenie do wykorzystania baz wektorowych i grafów wiedzy. Dowiedz się, jak łączyć strukturę grafów z osadzaniem wektorowym, aby efektywnie wyszukiwać podobieństwa i rozwiązywać złożone problemy analityczne.

NetCenLib: A comprehensive python library for network centrality analysis and evaluation
NetCenLib to zaawansowana biblioteka do obliczania szerokiego zakresu miar dla sieci społecznych i grafów. Została zaprojektowana jako rozszerzenie NetworkX, dostarczając programistom kompleksowe narzędzie do analizy struktury i własności sieci.

#analiza_danych_projekty

Want to Streamline Your Deep Learning Pipeline?
Dowiedz się, jak zbudować skalowalny i w pełni zautomatyzowany potok głębokiego uczenia przy użyciu Apache Airflow, FastAPI i Docker. Kompleksowy przewodnik obejmujący nie tylko orkiestrację, ale również zaawansowane skrypty kontenerowe odpowiedzialne za przetwarzanie danych.

A Complete Introduction to Using BERT Models
BERT to jeden z przełomowych modeli transformerowych w przetwarzaniu języka naturalnego. Pomimo prostej architektury, sprawdza się znakomicie w zadaniach, do których został stworzony. Ten tutorial poprowadzi Cię przez podstawy modelu BERT krok po kroku.

#architektura

Deep Dive into WebSockets
Kompleksowe omówienie protokołu WebSocket, jego mechanizmów działania oraz roli w komunikacji klient-serwer. Poznaj zalety, wady i praktyczne aspekty projektowania aplikacji do obsługi komunikacji w czasie rzeczywistym.

#bazy_danych

Duck-UI – web-based interface for interacting with DuckDB
Duck-UI to wielofunkcyjny internetowy interfejs do DuckDB. Oferuje edytor SQL, import/eksport danych, eksplorator danych, historię zapytań oraz przełączanie motywów. Wszystko działa bezproblemowo w przeglądarce dzięki technologii WebAssembly. Link do repo, znajdziesz tam też namiary na demo narzędzia. Może się przydać, chociaż chyba „nie ma cwaniaka” nad Bobra… znaczy DBeavera.

#ciekawostki

Skąd są twoi znajomi?
Szymon prowadzący znaną stronę Kartografia Ekstremalna przeanalizował ogromne ilości danych, aby sprawdzić czy granice dawnych zaborów widać na dzisiejszych mapach więzi społecznych. Fascynujący tekst!

7 trendów, które powinien znać analityk danych w 2025 roku
Początek roku to czas podsumowań tego, co wydarzyło się w roku poprzednim, ale także czas na patrzenie w przyszłość. A co przyniesie ten rok w świecie analizy danych i jakimi tematami warto się zainteresować, żeby być na czasie? Co czeka analityków danych w 2025 roku? Jedna z opinii.

Taking a Look at Compression Algorithms
Czym jest kompresja? Jak kompresujemy dane? Ciekawy artykuł o algorytmach związanych z tym zagadnieniem.

HTML to markdown converter
Wraz z rozwojem AI format Markdown staje się coraz popularniejszy. Modele LLM preferują dane w tym formacie i często w nim odpowiadają. Ten konwerter HTMLa do Markdown ułatwi Ci pracę z dokumentami.

Pinkmess
Jesteś informatycznym minimalistą, który działa wyłącznie w terminalu? Potrzebujesz prostego narzędzia do sporządzania notatek? Pinkmess jest idealnym rozwiązaniem dla prawdziwych terminalowych nerdów!

#data_engineering

Bike Points Data Engineering Project
Proces zbierana i przetwarzania danych o punktach rowerowych w Londynie – zarówno w czasie zbliżonym do rzeczywistego, jak i w warstwach historycznych. To samo można zrobić dla innych sieci rowerowych (jeśli potrzebujesz lokalnych, polskich danych to mały hint: szukaj w okolicach Citybik.es oraz API Nextbike).

#devops

Real-Time Linux Monitoring with dstat
dstat to wszechstronne i potężne narzędzie, które zapewnia szczegółowe informacje o wydajności systemu w czasie rzeczywistym. Poznaj je

btop and Why You Need It
A jeśli nie dstat i nie top to może htop? Albo jeszcze lepiej – btop

Lost Your Docker Run Command?
Pierwszym krokiem do rekonstrukcji utraconego polecenia docker run jest sprawdzenie działającego kontenera. Docker udostępnia polecenie o nazwie docker inspect, które umożliwia zebranie wszystkich metadanych powiązanych z kontenerem.

#llm_&_chatgpt

Create an Adaptive Customer Behavior Analytics Dashboard with Claude AI and Python
Jak analizować zachowania konsumentów za pomocą dynamicznego pulpitu nawigacyjnego zbudowanego przy użyciu Claude AI i Flask? Praktyczne podejście do tworzenia aplikacji we współpracy z Claude (żeby nie było, że tylko OpenAI)

#python

Python argparse: Definition, How to Use, and Best Practices
Moduł argparse języka Python to wszechstronne narzędzie do tworzenia aplikacji wiersza poleceń, od definiowania argumentów po dostosowywanie komunikatów o błędach. Click też taki jest, możesz go potraktować jako konkurencję. Z tym, że argparse jest w bibliotece standardowej.

Scaling Flask with Docker
Dowiedz się, jak konteneryzować projekt Flask, wdrażać wiele wystąpień i używać NGINX do płynnej dystrybucji ruchu

100 Common Python mistakes
100 najczęstszych błędów w Pythonie i jak ich unikać. Błędy logiczne, pułapki wydajnościowe i tym podobne. Link prowadzi do rozdziału z książki o Pythonie dla początkujących.

#wizualizacja_danych

Maps as guides
Strona Fix My Chart i jej kolumna porad na wszystkie pytania dotyczące wizualizacji danych. Tym razem na prawdziwych wykresach, mapach i tabelach, i dowiedz się, jak naprawić mapę z najważniejszymi miejscami w parku.

Plotly is better than Matplotlib in data visualization
Odważna teza w tytule (wiadomo – bez click-baitów się nie da), w treści przedstawienie kilku podstawowych elementów robienia wykreów z użyciem Plotly (w Pythonie)


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *