Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Dzisiaj zapraszam na duży pakiet związany z Apache Spark – od instalacji, poprzez stosunkowo mało zaawansowane tutoriale, a na debugowaniu i optymalizacji zapytań skończywszy.
Standardowo jest też trochę Pythona (na przykład świetny kurs spaCy – ale to fani fanpage’a Dane i Analizy już znają czy też coś o wzorcach projektowych albo aplikacjach wielowątkowych), a w części „analiza danych” dość przekrojowe zagadnienia (np. computer vision bez sieci neuronowych – dość sprytne podejście do tematu zajętych miejsc parkingowych).
#analiza_danych_koncepcje
Customer Segmentation and Potential Customer Prediction
Segmentacja klientów jako przykład procesu analizy danych i przygotowania procesów predykcyjnych
Topic Modeling With Latent Dirichlet Allocation
Każdy dokument (tekst) to mieszanka tematów, a każdy temat to mieszanka słów. To wystarczy żeby określić tematy o których mówią dokumenty
Monitoring Model Drift with Python
Popmon to pakiet, który pozwala sprawdzić stabilność zbioru danych. Popmon działa zarówno z zestawami danych w tabelach Pandas jak i ze Sparkiem
#analiza_danych_projekty
Parking space counter created using OpenCV
Jak policzyć wolne miejsca parkingowe na zdjęciu lotniczym (albo z drona)? Ciekawy projekt użycia Computer Vision
Multiclass Text Classification Using Keras to Predict Emotions
Czy word embedding dodaje wartości modelom klasyfikacji tekstu? Przekonajmy się w tym wieloklasowym zadaniu przewidywania do wykrywania emocji
Analyzing your Friends’ iMessage Wordle Stats Using Python
Też chwalicie się wśród znajomych wynikami z Wordle, Literalnie czy Słownikowo? A analizowaliście swoje wyniki?
#big_data
Data Build Tool – The One Tool To Rule Them All
Data Build Tool (DBT) – co to w ogóle jest i po co?
#ciekawostki
The smallest 256×256 single-color PNG file
Jednokolorowy obrazek PNG może mieć różne rozmiary, a różnica potrafi być 10-krotna. Skąd różnica? I dlaczego to ma znaczenie?
Złożoność obliczeniowa algorytmów
Artykuł wyjaśnia czym jest złożoność obliczeniowa algorytmów, notacja dużego O, oraz pokazuje przykłady najczęściej spotykanych złożoności
#python_mid
Natural Language Processing with spaCy
Jeśli interesuje Cię przetwarzanie tekstu i ogólnopojęte NLP to masz zajęcie na jakieś 3 godziny. Warto!
Understand Machine Learning Through 7 Software Design Patterns
Niby w tytule pojawia się uczenie maszynowe, ale chodzi o wzorce projektowe z Pythonie – jak pisać klasy aby były łatwo wymienne, łatwe w rozwijaniu i niezależne od siebie?
Serve any XGBoost model with FastAPI in less than 40 lines
Opakowanie wyuczonego modelu (w tym przypadku z rodziny XGBoost) w API – szybko i przyjemnie
Threading in Python: The Complete Guide
Programowanie wielowątkowe – konkretne wprowadzenie
Automate Web Scraping and Updating Database with Python, MongoDB, and GitHub Actions
Pobieranie danych z internetu ale przede wszystkim opakowanie tego w akcje na GitHubie
#r
Pulling Twitter Engagements Using API
Pobieranie danych z Twittera bezpośrednio z API, bez dodatkowych bibliotek. Może się przydać – na pewno uczy jak z poziomu R sięgać do API
#spark
Creating Apache Spark Standalone Cluster with on Windows
Wiadomo, że na Linuxie łatwiej, ale jakby ktoś chciał spróbować Sparka na Windows…
Apache Spark Using Python
Uczenie maszynowe w Sparku? Tak. Oto krótkie wprowadzenie
Building a Car Price Predictor Using Spark in Python
Uczenie maszynowe w Sparku? Zaraz zaraz – czy to to samo? Nie. To też wprowadzenie ale z innym problemem (dobre jako krok drugi)
Introduction to GeoSpatial streaming with Apache Spark and Apache Sedona
Dane geograficzne i ich przetwarzanie w Apache Spark – ciekawy kierunek, warto obserwować projekt Apache Sedona
Debugging Spark Job
Jak sprawdzić dlaczego coś działającego w Sparku nie działa?
Managing Partitions with Spark
Jeśli zrozumiemy jak odbywa się partycjonowanie w Spark, tym łatwiej będzie pozostać z obliczeniami w pamięci bez przechodzenia do obliczeń na dyski. A to oznacza po prostu szybciej
#ux
Wordle is a masterclass in product design simplicity
Dlaczego Wordle jest przykładem świetnego projektowania produktu?
#wizualizacja_danych
Plotly with Streamlit, Dash or Flask
Trzy proste przykłady osadzenia inteaktywnych wykresów zbudowanych w Plotly w ramach popularnych frameworków
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)