Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Razem z początkiem lipca zwykle w mediach rozpoczyna się sezon ogórkowy. Upały dają się we znaki, żar leje się z nieba (pozdrawiamy fanów „Hydrozagadki” oraz Asa!), jedyne o czym chce się myśleć to schłodzone napoje i leżenie w basenie.
Ale mimo tych przeciwności losu przed Wami kolejna porcja wiedzy w postaci ręcznie wybranych najlepszych tekstów o AI i ML plus okolicach związanych z przetwarzaniem danych jakie przewinęły się przez cały tydzień w różnych mediach czy też innych newsletterach.
#ai_ml
Każdy powie co chcesz!
Film wyjaśnia, jak przy użyciu darmowych narzędzi (albo przynajmniej darmowych kredytów na płatnych narzędziach) osiągnąć nagranie deepfake, które zawiera podmieniony głos połączony z synchronizacją ust osoby na filmie. Ta metoda jest ostatnio wykorzystywana w oszustwach krążących po Facebooku.
Building an AI Text-to-Video Model from Scratch Using Python
Jak się robi generatory wideo? GenAI od środka.
Mastering Object Counting in Videos
Śledzenie poruszających się obiektów na filmie – na przykładzie mrówek.
#analiza_danych_koncepcje
A New Coefficient of Correlation
A gdyby tak przygotować nowy „współczynnik korelacji”, który uwzględni też krzywe? Przykłady z kodem w R i Pythonie
Scale your ML Projects with SOLID principles
Jak napisać kod, który się skaluje i przyspiesza Twoją pracę? Pryncypia SOLID w projektach związanych z przetwarzaniem danych i uczeniem maszynowym
#analiza_danych_projekty
Data science portfolio
Cudze projekty potrafią być inspiracją – zatem dość obszerny zestaw takowych, na różne tematy.
How to Build a Graph-based Neural Network for Anomaly Detection in 6 Steps
Sieci grafowe jako sposób na wykrywanie anomalii i niespójności w danych/
#architektura
Reliably Processing Trillions of Kafka Messages Per Day
Ponad 25 tysięcy konsumentów topików Kafkowych, rozciągniętych na różne chmury. Walmart ma rozmach, prawda?
#data_engineering
YouTube Trend Analysis Pipeline
Typowy proces ETL do wyciągania informacji z YouTube: API wykorzystanie do pobrania danych, Spark do ich przetworzenia, AirFlow do zarządzania całością.
Building a Real-Time Data Pipeline with Kafka, Snowflake, DBT, Airflow, and Tableau
Podobny projekt jak wyżej, ale tym razem mamy inne technologie: część napisana w node.js a część w Pythonie, przetwarzanie danych w parze Snowflake i DBT, wyniki podane w Tableau.
#management
How To Hire AI Engineers
Jak zatrudniać inżynierów od AI. Rozmowa i wskazówki po latach doświadczeń autorów.
#python
Stop Using “x=[]” in Python Function Parameters!
Podstawy Pythona, które potrafią zaskoczyć: o mutowalności i [] jako domyślnym argumencie funkcji.
How to set up your Python project as a Software Engineer
Cała masa wskazówek jak przygotować projekt w Pythonie – strukturę plików i folderów, pliki Dockera, konfigurację IDE.
#r
R Plumber: How to Craft Error Responses that Speak Fluent HTTP
Wiele razy w tym newsletterze pojawiają się artykuły o pisaniu API w Pythonie i FastAPI. Ale można też API napisać w R. Porząde API zaś zapewnia sensowną komunikację o błędach – i o tym jak zapewnić takową w API stworzonym w Plumberze przeczytasz w tym tekście.
#spark
Speed up Your ML Projects With Spark
Szumny tytuł (jak zwykle) zakłamuje zawartość. Ale warto kliknąć, bo w środku znajdziesz cały pakiet funkcji napisanych w PySparku ułatwiających analizę danych i przygotowanie do EDA.
PySpark Explained: Dealing with Invalid Records When Reading CSV and JSON Files
Czasami jest tak, że dane nie są do końca takie jak oczekujemy- na przykład w JSONach brakuje poszczególnych kluczy, a w CSVkach kolumn. Albo wartości są puste. Co robić w takich sytuacjach? Na przykładzie Sparka.
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)