Przejdź do treści

Newsletter Dane i Analizy, 2022-04-25

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Dzisiaj zapraszam na duży pakiet związany z Apache Spark – od instalacji, poprzez stosunkowo mało zaawansowane tutoriale, a na debugowaniu i optymalizacji zapytań skończywszy.

Standardowo jest też trochę Pythona (na przykład świetny kurs spaCy – ale to fani fanpage’a Dane i Analizy już znają czy też coś o wzorcach projektowych albo aplikacjach wielowątkowych), a w części „analiza danych” dość przekrojowe zagadnienia (np. computer vision bez sieci neuronowych – dość sprytne podejście do tematu zajętych miejsc parkingowych).


#analiza_danych_koncepcje

Customer Segmentation and Potential Customer Prediction
Segmentacja klientów jako przykład procesu analizy danych i przygotowania procesów predykcyjnych

Topic Modeling With Latent Dirichlet Allocation
Każdy dokument (tekst) to mieszanka tematów, a każdy temat to mieszanka słów. To wystarczy żeby określić tematy o których mówią dokumenty

Monitoring Model Drift with Python
Popmon to pakiet, który pozwala sprawdzić stabilność zbioru danych. Popmon działa zarówno z zestawami danych w tabelach Pandas jak i ze Sparkiem

#analiza_danych_projekty

Parking space counter created using OpenCV
Jak policzyć wolne miejsca parkingowe na zdjęciu lotniczym (albo z drona)? Ciekawy projekt użycia Computer Vision

Multiclass Text Classification Using Keras to Predict Emotions
Czy word embedding dodaje wartości modelom klasyfikacji tekstu? Przekonajmy się w tym wieloklasowym zadaniu przewidywania do wykrywania emocji

Analyzing your Friends’ iMessage Wordle Stats Using Python
Też chwalicie się wśród znajomych wynikami z Wordle, Literalnie czy Słownikowo? A analizowaliście swoje wyniki?

#big_data

Data Build Tool – The One Tool To Rule Them All
Data Build Tool (DBT) – co to w ogóle jest i po co?

#ciekawostki

The smallest 256×256 single-color PNG file
Jednokolorowy obrazek PNG może mieć różne rozmiary, a różnica potrafi być 10-krotna. Skąd różnica? I dlaczego to ma znaczenie?

Złożoność obliczeniowa algorytmów
Artykuł wyjaśnia czym jest złożoność obliczeniowa algorytmów, notacja dużego O, oraz pokazuje przykłady najczęściej spotykanych złożoności

#python_mid

Natural Language Processing with spaCy
Jeśli interesuje Cię przetwarzanie tekstu i ogólnopojęte NLP to masz zajęcie na jakieś 3 godziny. Warto!

Understand Machine Learning Through 7 Software Design Patterns
Niby w tytule pojawia się uczenie maszynowe, ale chodzi o wzorce projektowe z Pythonie – jak pisać klasy aby były łatwo wymienne, łatwe w rozwijaniu i niezależne od siebie?

Serve any XGBoost model with FastAPI in less than 40 lines
Opakowanie wyuczonego modelu (w tym przypadku z rodziny XGBoost) w API – szybko i przyjemnie

Threading in Python: The Complete Guide
Programowanie wielowątkowe – konkretne wprowadzenie

Automate Web Scraping and Updating Database with Python, MongoDB, and GitHub Actions
Pobieranie danych z internetu ale przede wszystkim opakowanie tego w akcje na GitHubie

#r

Pulling Twitter Engagements Using API
Pobieranie danych z Twittera bezpośrednio z API, bez dodatkowych bibliotek. Może się przydać – na pewno uczy jak z poziomu R sięgać do API

#spark

Creating Apache Spark Standalone Cluster with on Windows
Wiadomo, że na Linuxie łatwiej, ale jakby ktoś chciał spróbować Sparka na Windows…

Apache Spark Using Python
Uczenie maszynowe w Sparku? Tak. Oto krótkie wprowadzenie

Building a Car Price Predictor Using Spark in Python
Uczenie maszynowe w Sparku? Zaraz zaraz – czy to to samo? Nie. To też wprowadzenie ale z innym problemem (dobre jako krok drugi)

Introduction to GeoSpatial streaming with Apache Spark and Apache Sedona
Dane geograficzne i ich przetwarzanie w Apache Spark – ciekawy kierunek, warto obserwować projekt Apache Sedona

Debugging Spark Job
Jak sprawdzić dlaczego coś działającego w Sparku nie działa?

Managing Partitions with Spark
Jeśli zrozumiemy jak odbywa się partycjonowanie w Spark, tym łatwiej będzie pozostać z obliczeniami w pamięci bez przechodzenia do obliczeń na dyski. A to oznacza po prostu szybciej

#ux

Wordle is a masterclass in product design simplicity
Dlaczego Wordle jest przykładem świetnego projektowania produktu?

#wizualizacja_danych

Plotly with Streamlit, Dash or Flask
Trzy proste przykłady osadzenia inteaktywnych wykresów zbudowanych w Plotly w ramach popularnych frameworków


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *