Przejdź do treści

Newsletter Dane i Analizy, 2022-11-28

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Czarny Piątek co prawda za nami, ale wietrzenie magazynów bardzo się przyda. Tym bardziej, że w ankiecie sprzed bodaj dwóch tygodni przyznaliście, że więcej polecanych tekstów w jednym numerze jesteście w stanie przełknąć. Zatem wietrzymy i mamy więcej niż zwykle.

Ostatnio pokazywałem potencjalną drabinkę Mundialu, która już być może nieco nieaktualna, prawda? Od początku całej imprezy wpadają jednak do wora dane z Twittera i między innymi na fanpage’u pokazywałem przykładowe wykresy. Projekt jest dość prosty w przygotowaniu, jak znajdę czas to (mam nadzieję) w tym tygodniu opiszę z grubsza założenia.
Okazuje się, że big data można robić w kilka dni. Mam w tym doświadczenie, może to „robi robotę”?


#AI_ML

How to Build TensorFlow Models with the Keras Functional API
Jeśli jeszcze nie miałeś/łaś okazji pracować z sieciami neuronowymi w TensorFlow, a bardzo chcesz to od tego teksu należy zacząć. Co i jak – po kolei wytłumaczone

Working on a Computer Vision project?
A jeśli już z TensorFlow popracujesz to być może zajmiesz się „computer vsion”. Wówczas te kilka gotowych kawałków kodu może przyspieszyć pracę (bo po co pisać coś co jest już gotowe?)

Saving the Titanic Using Azure AutoML
Azure AutoML pozwala na szukanie najlepszego modelu w szybkim czasie. AutoML nie jest może remedium na każdy problem, ale na pewno jest dobrym krokiem wstępnym – znajdźmy klasę modeli, znajdźmy bazowe miary skuteczności tych modeli, a potem już ręcznie można „kręcić odpowiednimi śrubkami”

#airflow

Python Scheduling Using Apache Airflow
Jeśli jeszcze nie znasz Apache Airflow to z tego tekstu dowiesz się o co chodzi. Jak zastąpić cron-a? Jak monitorować (w GUI!) czy zadanie się wykonało? Jak zacząć z Airflow?

Best Practices for Airflow Developers
Jeśli już piszesz pierwsze DAGi w Airflow to być może przyda się krok kolejny i na przykład testy automatyczne?

#analiza_danych_koncepcje

8 Reasons Why Forecasting Is Hard
Dlaczego przewidywanie przyszłości jest trudne? Przecież można „wszystko wrzucić do sztucznej inteligencji i ona nam to policzy”. Otóż nie

Building Airbnb Categories with ML and Human-in-the-Loop
Pierwszy tekst z serii. Airbnb wprowadziło kategoryzację swoich ofert – dlaczego, jak?

Time Series Regime Analysis in Python
O szeregach czasowych było sporo w poprzednich wydaniach naszego newslettera (poszukaj w archiwum!), tutaj małe podsumowanie oraz nakierowanie na predykcję z użyciem łańcuchów Markova

Machine Learning for Forecasting: Supervised Learning with Multivariate Time Series
Szereg czasowy jest wielowymiarowy, jeśli zawiera więcej niż jedną zmienną – na przykład łączna sprzedaż składa się ze sprzedaży różnych rodzajów win. Załóżmy, że chcesz prognozować jedną ze zmiennych, niech będzie to sprzedaż wina wytrawnego (jedyne słuszne ;-)). Jak zbudować model, aby to zrobić?

Calibrating classifiers. Are you sure your model returns probabilities?
Czy Twój model zwraca prawdopodobieństwo przynależności do danej klasy? Może dzięki tym prawdopodobieństwom da się przygotować jeszcze lepszy model?

Breaking it Down: K-Means Clustering
Jak działa algorytm K-means i jak użyć go do określenia gdzie jest pszczoła?

#analiza_danych_projekty

Microsoft Power BI and Python: Two Superpowers Combined
W tym samouczku dowiesz się, jak skonfigurować Microsoft Power BI do pracy z Pythonem. Używając Pythona możesz przekształcać i rozszerzać zbiór danych za pomocą Pandas oraz wizualizować je za pomocą Matplotlib

Elegant Text Pre-Processing with NLTK in sklearn Pipeline
Oczyszczanie tekstu i jego normalizacja to podstawowe kroki w każdym projekcie dotykającym NLP. Tutaj dobry tutorial, chociaż osobiście wolę pakiet spaCy ;-)

#bazy_danych

A poor man’s API
CRUD bez kodowania?

#big_data

Build a Data API for your Snowflake Data
Mamy sobie dane zgromadzone w Snowflake’u i chcemy je wystawić „publiczności”. Jak to zrobić?

Data pipeline using Kafka, Hive, Python and Power BI
A gdyby tak ten strumień danych na Kafce pokazać od razu w PowerBI? Tutaj nie z użyciem Pinota a „po staremu” – z użyciem Hive

#ciekawostki

For your eyes only: improving Netflix video quality with neural networks
Jak Netflix „poprawia” jakość obrazu w swoich filmach?

#devops

How to Dockerize Machine Learning Applications Built with H2O, MLflow, FastAPI, and Streamlit
Łatwy przewodnik po konteneryzacji wielousługowych aplikacji ML za pomocą platformy Docker – jeśli budujesz modele ML wdrażane gdzieś to pewnie przyjdzie Ci przygotować dla nich dockerowe obrazy

A Detailed Guide to Key Metrics of MongoDB Monitoring
Jak wybrać metryki potrzebne do monitorowania bazy danych MongoDB? Wykorzystano tutaj Prometheus do przechwytywania metryk za pomocą eksportera MongoDB

#kafka

Real-Time Event Streaming with Kafka & BigQuery
A gdyby tak dane z Kafki wepchnąć do BigQuery i stamtąd je oglądać? Nic specjalnego, ale w gratisie znajdziecie kod producenta i konsumenta komunikatów przygotowane w Pythonie

Scaling Kafka Consumer for Billions of Events
A rozwiązanie przesyłania Kafką do BigQuery zastosował PayPal – skala to miliardy komunikatów. Tym razem z przykładowym kodem w Javie

#management

Metric Design for Data Scientists and Business Leaders
Żeby było wiadomo czy jest lepiej niż było (albo gorzej) potrzebne są jakieś metryki. I o przygotowaniu takich metryk w kontekście organizacji data-driven jest ten tekst

#python

The Best Python Frameworks for Web Applications and Services
Według różnych ankiet około 48% programistów używa Pythona (wiadomo, Java trash language czy jakoś tak). Ale jakby chcieć tak jakąś stronkę dla firmy sąsiada machnąć to co wtedy? ;-)

Async for Data Scientists: Don’t Block the Event Loop
Zadania wymagające dużej ilości obliczeń mogą blokować Twój program. Jak tego uniknąć w Pythonie?

Best practice for working with API’s in the real world
Kilka wskazówek jak pisać API w Pythonie

How To Read/Write DataFrames From/To SQL over HTTP with FastAPI
A jak przerzucać przez API tabelki z danymi? Prawie sam kod, bez zbędnego gadania

Code a Duck Hunt Game
Pisanie prostych gier uczy programowania i sprawia frajdę. Idąc tym tropem – dwie i pół godziny tutoriala przed Tobą. Tutoriala, który nauczy Cię PyGame i umożliwi strzelanie do kaczek

#r

Using GoogleSheets as a Database in R
Potraktuj Google Sheets jako bazę na dane i skorzystaj z niej w R

PCA for Categorical Variables
Czy redukcję wymiarów poprzez PCA można wykorzystać dla kategorycznych danych?

#spark

Apache Spark Optimization Techniques and Tuning
Jeśli dobrze liczę – 12 porad o tym jak przyspieszyć Sparka

A Fast Look at Spark Structured Streaming + Kafka
Pociągnijmy Sparkiem bezpośrednio dane z Kafki i coś z nimi zróbmy! Na przykład zagregujmy w czasie rzeczywistym, na przykład w 15-minutowych oknach czasowych

#wizualizacja_danych

Data Vis Dispatch
Inspiracje dla dashboardów i wykresów

Visualizing and Exploring Hierarchical Data in Plotly
W Twoich danych może istnieć hierarchia, coś przynależy do czegoś. Korzystanie z wykresów typu Sunburst lub Treemap może sprawić, że dojrzysz ukryte wzorce, których nie można łatwo rozpoznać na standardowych wykresach.


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *