Newsletter Dane i Analizy, 2022-03-28

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Połowa dzisiejszych materiałów to konkretne projekty związane z danymi. Albo wyciąganie informacji z rachunków z przejazdy Uberem, albo realtime’owe wizualizacje tego co co się zmienia w Wikipedii, albo big data w Big Query. Plus raport Stanford AI Index Report

#AI_ML

Is Facebook Prophet suited for doing good predictions in a real-world project?
Jak biblioteka Prophet do prognozowania szeregów czasowych sprawdza się w realnych zastosowaniach?

#analiza_danych_koncepcje

Stop using random forest feature importances
Skąd wiecie, że dana cecha jest istona w Waszym modelu? „feature importances” z lasów losowych ma pewne niedociąnięcia o których warto wiedzieć

Visualizing multicollinearity in Python
Współliniowość cech nie poprawia jakości modelu, więc takie współliniowe cechy się usuwa z danych. A jak sprawdzić które cechy są współliniowe? Na przykład przy pomocy grafów

#analiza_danych_projekty

Klasyfikacja opinii w oparciu o treść
Czytając opinię od razu „czujemy” czy jest ona pozytywna czy negatywna. A czy za pomocą uczenia maszynowego komputer stwierdzi to z taką samą łatwością?

Enabling streaming data with Spark Structured Streaming and Kafka
Jak połączyć Kafkę, Spark Streaming i pokazać aktualizowane w czasie rzeczywistym wykresy? Na podstawie zmian w Wikipedii

Track the expenses of Uber Rides and Uber Eats
Repozytorium ze świetnym projektem analizującym dane. Począwszy od czytania maili z rachunkami, przez ETLe i Airflow do dashboardu w PowerBI

What is an Isolation Forest?
Co to za metoda? I jak dzięki niej można wykryć outliery?

#big_data

Using MQTT to Push Messages Across Devices
Do przesyłaniu stanu urządzenia (np. temperatury z elektronicznego termometru) można użyć Kafki, a można też – i to często się zdarza w przypadku urządzeń i ogólnie świata IoT – użyć kolejek MQTT. Jak je obsłużyć w Pythonie?

BigQuery UDFs Complete Guide
Jeśli brakuje jakiejś funkcji należy sobie ją napisać. I powstaje Used Defined Function, czyli w UDF. Można też w BigQuery

Four Reasons that make DBT a great time saver for Data Engineers
DBT – dlaczego takie fajne, na przykładzie

#ciekawostki

My guiding principles after 20 years of programming
Rady programisty po 20 latach pracy

#deep_learning

Wykrywanie obiektów na obrazie
O wykrywaniu obiektów na obrazie

Model CNN do klasyfikacji samochodów
Droga tworzenia modelu konwolucyjnej sieci neuronowej do klasyfikacji samochodów wg. marki, modelu i rocznika

#management

A Beginners Guide to the Machine Learning Lifecycle
Zanim magiczna szklana kula w postaci machine learningu lub sztucznej inteligencji da nam te wymarzone odpowiedzi trzeba wiedzieć jakie są ograniczenia, jakie kroki trzeba podjąć przed pójściem do „wróżki” oraz czego owa wróżka potrzebuje…

The AI Index Report
Najnowsza edycja raportu Stanford AI Index Report uwzględnia dane z wielu różnych organizacji i oferuje wgląd w obecny stan sztucznej inteligencji i kierunki rozwoju. Obejmuje możliwości techniczne, badania i rozwój, etykę, politykę i zarządzanie AI i nie tylko

#python_junior

20 Python Interview Questions To Challenge Your Knowledge
Czujesz się dobre w Pythonie? Sprawdź swoją wiedzę.
Albo sprawdź czego potrzebujesz, aby czuć się dobrze

#python_mid

How to write unit tests for Spark
Testy jednostkowe pozwalają na budowanie poprawnych rozwiązań już na poziomie pisania kodu. A jak zobie z nimi poradzić w świecie big data obsługiwanego Sparkiem?

#wizualizacja_danych

The battle among 4 Python Data Visualization Tools
Cztery biblioteki do robienia wykresów w Pythonie – dla każdego coś miłego. Albo raczej różnice między nimi

#zestawy_danych

CShapes
Jakby ktoś potrzebował starych map z granicami państw to tutaj jest zbiór z danymi dla lat 1886-2019

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)