Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Newslettery… czy wiecie, że tylko nieco ponad 1/3 newsletterów ma swój drugi numer? Co 10-ty newsletter (precyzyjniej: 11%) ukazuje się dłużej niż 10 numerów. A jednocześnie 23-krotnie wzrosła liczba newsletterów od 2019 roku na platformie Substack. Tak mówi źródło tych danych.
Nasz newsletter ma jakieś 3 lata (przynajmniej w redakcyjnym archiwum w serwisie Raindrop.io gdzie zebrane są wszystkie teksty jest tag #newsletter_2021-11-15), co by znaczyło jakieś 150 wydań. W archiwum, bo były czasy przed budowaniem archiwum (kilkanaście tygodni na pewno), ale tak starych ludzi już nie ma… :-)
Archiwum mówi też o ponad 3400 tysiącu tekstów 😮
Dla porównania – do 100 odcinków dochodzi 6.4% podcastów i zajmuje to około dwóch lat (czyli znowu odcinek co tydzień; źródło). To jest żmudna robota, wymagająca wytrwałości.
#ai_ml
Document (PDF) extraction and parse API using state of the art modern OCRs + Ollama supported models
Autorzy tego repozytorium piszą tak: „Konwertuj dowolny obraz lub plik PDF na dokument w formacie Markdown lub plik w formacie JSON z bardzo dużą dokładnością, obejmującym dane tabelaryczne, liczby i wzory matematyczne”. Chyba warto sprawdzić?
#analiza_danych_koncepcje
AdaBoost Classifier
Nauki zasad działania Machine Learning ciąg dalszy – przed algorytm Wami AdaBoost użyty do klasyfikacji i wytłumaczony na dużej liczbie obrazków.
PCA Vs. T-SNE Vs. UMAP: Find The Right Fit For Your Data
Zmniejszenie wymiarowości danych może być różnicą między dostrzeżeniem wzorca a jego całkowitym pominięciem. Jednak przy tak wielu dostępnych technikach redukcji wymiarowości nie zawsze jest jasne, której z nich użyć. Niedawno było o t-SNE, dzisiaj nieco szerzej.
Model Selection
Budowanie, ocena i wybór najlepszych modeli – o tym było wiele razy, chyba nigdy w tak obszernym tekście (który jest częścią cyklu) jak tutaj.
Detecting Anomalies in Social Media Volume Time Series
O wykrywaniu anomalii w danych (szeregach czasowych) na przykładzie ilości informacji na dany temat w social mediach. Na końcu artykułu link do pełnego notebooka
#bazy_danych
What I Wish Someone Told Me About Postgres
Po wielu latach pracy autor dzieli się doświadczeniem związanym z projektowaniem baz danych. Sporo przydatnej wiedzy o SQLu, narzędziu psql oraz właściwościach samego Postgresa.
#ciekawostki
All the data can be yours
Jakie znacie sposoby na zdobycie danych, których teoretycznie nie ma?
#data_engineering
Building a Python Web Scraper with Data Analysis, Visualization, and Automation
Projekt, jakich wiele tutaj traficie: dane pobierane ze stron internetowych (tutaj z wykorzystaniem mechanizmów scrapowania), nieco przerabiane, nieco prezentowane – ot, automatyzacja na całego.
Build a Streaming Data Architecture with Apache Kafka and Zookeeper
Bardzo dobry tutorial pokazujacy jak działa (i jak przygotować sobie w domu – z użyciem gotowych obrazów Dockera i kawałków kodu w Pythonie) typowy proces strumieniowego przetwarzania danych.
#devops
Bash tips and tricks you (probably) didn’t know
Kilka przydatnych sztuczek dla shella, do użycia czy to w ramach pojedynczych komend (bardziej ich złożenia), czy to w ramach skryptów.
#python
10 Advanced Python Concepts You Should Know To Be a Senior Developer
Szumny tytuł, ale tekst porusza 10 zagadnień związanych z programowaniem w Pythonie, których zrozumienie i wykorzystywanie na co dzień powinno oznaczać, że jesteś senior developerem. Jesteś?
Creating a Simple Interactive Dashboard with Dash
Bardzo często na łamach newslettera pojawiały się teksty mówiące o tym jak zbudować aplikację prezentującą jakieś dane z wykorzystaniem Streamlit. Tutaj rozwiązanie wymagające więcej pracy, a dające chyba lepsze efekty (na pewno większą swobodę jeśli chodzi o wygląd). Mowa o (starszej niż Streamlit, który popularnością przebił Dash jakiś rok temu – wg Google Trends) nieco zapomnianej chyba bibliotece Dash.
Why You Should Switch to SQLModel for FastAPI Projects
Arjan opowiada jak to zwykle FastAPI gada sobie z bazą danych (przy pomocy SQLAlchemy i ze wsparciem Pydantic), ale też o tym że to nieco powielanie kodu i SQLModel może pomóc.
Model Deployment with FastAPI, Azure, and Docker
Dość obszerna przypominajka o tym jak „ubrać” model w API, zdokeryzować, a tutaj dodatkowo jeszcze osadzić na Azure. Czyli jako data scientist wypracowaliśmy cudowny model na przykład przypisujący rodzaj irysa do podanych wymiarów płatka, ubraliśmy go w kontener stanowiący opakowanie pozwalające na przenoszenie i wdrażanie w różne miejsca. Na koniec wdrażamy w ramach chmury Azure.
FastAPI: Retry Mechanism
API sięga do bazy (lub innych zasobów), ale to się nie udaje więc… może powinno sięgnąć jeszcze raz? Zatem: mechanizm ponawiania, ładnie „udekorowany” chciałoby się zażartować.
#spark
Optimizing the Data Processing Performance in PySpark
W tym artykule autor przygląda się różnym, powszechnym problemom związanym z wydajnością przetwarzania danych za pomocą PySpark i proponuje strategie, które pozwalają osiągnąć szybsze wykonywanie zadań.
#wizualizacja_danych
1 dataset = 100 visualizations
„Jeden obraz wart tysiąc słów” – znacie to? A tu mamy sytuację odwrotną: jeden zbiór (bardzo prosty) danych pokazany na 100 sposobów.
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)