Newsletter Dane i Analizy, 2024-07-01

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Razem z początkiem lipca zwykle w mediach rozpoczyna się sezon ogórkowy. Upały dają się we znaki, żar leje się z nieba (pozdrawiamy fanów „Hydrozagadki” oraz Asa!), jedyne o czym chce się myśleć to schłodzone napoje i leżenie w basenie.

Ale mimo tych przeciwności losu przed Wami kolejna porcja wiedzy w postaci ręcznie wybranych najlepszych tekstów o AI i ML plus okolicach związanych z przetwarzaniem danych jakie przewinęły się przez cały tydzień w różnych mediach czy też innych newsletterach.

#ai_ml

Każdy powie co chcesz!
Film wyjaśnia, jak przy użyciu darmowych narzędzi (albo przynajmniej darmowych kredytów na płatnych narzędziach) osiągnąć nagranie deepfake, które zawiera podmieniony głos połączony z synchronizacją ust osoby na filmie. Ta metoda jest ostatnio wykorzystywana w oszustwach krążących po Facebooku.

Building an AI Text-to-Video Model from Scratch Using Python
Jak się robi generatory wideo? GenAI od środka.

Mastering Object Counting in Videos
Śledzenie poruszających się obiektów na filmie – na przykładzie mrówek.

#analiza_danych_koncepcje

A New Coefficient of Correlation
A gdyby tak przygotować nowy „współczynnik korelacji”, który uwzględni też krzywe? Przykłady z kodem w R i Pythonie

Scale your ML Projects with SOLID principles
Jak napisać kod, który się skaluje i przyspiesza Twoją pracę? Pryncypia SOLID w projektach związanych z przetwarzaniem danych i uczeniem maszynowym

#analiza_danych_projekty

Data science portfolio
Cudze projekty potrafią być inspiracją – zatem dość obszerny zestaw takowych, na różne tematy.

How to Build a Graph-based Neural Network for Anomaly Detection in 6 Steps
Sieci grafowe jako sposób na wykrywanie anomalii i niespójności w danych/

#architektura

Reliably Processing Trillions of Kafka Messages Per Day
Ponad 25 tysięcy konsumentów topików Kafkowych, rozciągniętych na różne chmury. Walmart ma rozmach, prawda?

#data_engineering

YouTube Trend Analysis Pipeline
Typowy proces ETL do wyciągania informacji z YouTube: API wykorzystanie do pobrania danych, Spark do ich przetworzenia, AirFlow do zarządzania całością.

Building a Real-Time Data Pipeline with Kafka, Snowflake, DBT, Airflow, and Tableau
Podobny projekt jak wyżej, ale tym razem mamy inne technologie: część napisana w node.js a część w Pythonie, przetwarzanie danych w parze Snowflake i DBT, wyniki podane w Tableau.

#management

How To Hire AI Engineers
Jak zatrudniać inżynierów od AI. Rozmowa i wskazówki po latach doświadczeń autorów.

#python

Stop Using “x=[]” in Python Function Parameters!
Podstawy Pythona, które potrafią zaskoczyć: o mutowalności i [] jako domyślnym argumencie funkcji.

How to set up your Python project as a Software Engineer
Cała masa wskazówek jak przygotować projekt w Pythonie – strukturę plików i folderów, pliki Dockera, konfigurację IDE.

#r

R Plumber: How to Craft Error Responses that Speak Fluent HTTP
Wiele razy w tym newsletterze pojawiają się artykuły o pisaniu API w Pythonie i FastAPI. Ale można też API napisać w R. Porząde API zaś zapewnia sensowną komunikację o błędach – i o tym jak zapewnić takową w API stworzonym w Plumberze przeczytasz w tym tekście.

#spark

Speed up Your ML Projects With Spark
Szumny tytuł (jak zwykle) zakłamuje zawartość. Ale warto kliknąć, bo w środku znajdziesz cały pakiet funkcji napisanych w PySparku ułatwiających analizę danych i przygotowanie do EDA.

PySpark Explained: Dealing with Invalid Records When Reading CSV and JSON Files
Czasami jest tak, że dane nie są do końca takie jak oczekujemy- na przykład w JSONach brakuje poszczególnych kluczy, a w CSVkach kolumn. Albo wartości są puste. Co robić w takich sytuacjach? Na przykładzie Sparka.

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)