Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Dzisiaj sporo tekstów dotyka sieci neuronowych. a może lepiej powiedzieć: TensorFlow. Mamy krótkie przedstawienie jak w ogóle sieci działają, kilka tekstów pokazujących jak z TensorFlow pracować i przygotowywać modele. Interesujące jest porównanie modeli regresji liniowej zawartych w pythonowym SciKit-Learn.
Dla początkujących i średniozaawansowanych mamy dwa obszary: scheduler zadań czyli coś o Apache Airflow oraz (też Apache) Spark o łączeniu danych i wykorzystaniu w NLP
Mam też dla Was coś specjalnego. Każdy lubi rabaty, a ja daję bezterminowo 15% zniżki na Karty Data Science!
Karty Data Science to zestaw, który pozwoli Ci uporządkować wiedzę z zakresu #datascience na przykład przed rozmową rekrutacyjną albo egzaminem. Jeśli zaś zaczynasz swoją drogę w świat #MachineLearning i #AI to wskażą podstawowe kierunki.
#AI_ML
How are memories stored in neural networks?
Działanie sieci neuronowych wyjaśnione w przystępny sposób dla laika w 15-minutowym filmie
Exploring Best Test Size, Number of Folds, and Repeated Hold-Out
Standardowy problem: jak duża powinna być próbka testowa? w ilu „kubełkach” w technice k-fold uczyć model?
MovieLens-1M Deep Dive – Tensorflow Recommenders
System rekomendacyjny z użyciem Tensorflow Recommenders (i bardzo fajnie napisanym kodem). Szukamy najbardziej pasującego filmu do już oglądanych i ocenionych, a za zbiór uczący służy znany MovieLens-1M
Stop using grid search!
A jak już szukamy odpowiedniego modelu budowanego w TensorFlow/Keras to może zautomatyzować dobór hiperparametrów (np. liczbę neuronów na kolejnych warstwach sieci) w naszej architekturze modelu? Keras Tuner w tym pomoże
Keras Callbacks Tutorial for Training Your Neural Networks Efficiently
I jeszcze raz TensorFlow/Keras – tym razem callbacki, które pozwolą na wywołanie naszych funkcji na początku i końcu każdej z uczących epok
Learning to Rank for Product Recommendations
Najczęstsze przypadki użycia LTR ( Learning-to-rank) to wyszukiwarki i systemy rekomendacyjne, gdzie celem rankingu jest uporządkowanie elementów w zrozumiałej kolejności.
W tym artykule wykorzystamy popularną bibliotekę XGBoost do rekomendacji filmów (tak, znowu)
#analiza_danych_koncepcje
Are You Using Feature Distributions to Detect Outliers?
Szukanie outlierów w sposób inny niż badanie rozkładów danych. O odległości Cooka, DBSCAN i Isolation Forest
3 Robust Linear Regression Models to Handle Outliers
Znowu outliery, tym razem w regresji liniowej. Ale nie szukanie ich tylko weryfikacja jak dostępne w ramach biblioteki scikit-learn model sobie z nimi radzą
#architektura
Streaming data vs. real-time data
Jak jest różnica między systemami operującymi na strumieniu danych a danymi (near) real-time?
Principles & Best Practices of REST API Design
Pryncypia i dobre praktyki przydatne przy tworzeniu usług REST API. Nie ma kodu, ale jest sporo sensownych punktów – swego rodzaju check-lista
#bazy_danych
NoSQL vs SQL – Which Type of Database Should You Use?
Półtorej godziny (ale można 2x speed i wiele się nie traci ;-) o bazach danych – najpierw relacyjnych i SQL, a potem o NoSQL (i ta część wydaje się ciekawsza). Na koniec – kiedy używać której
#big_data
Airflow 101: Hints and Tips to Quickly Get Started
Nie masz zielonego pojęcia czym jest Airflow? To tekst dla Ciebie. Nie tylko szybko dowiesz się do czego używać Airflow ale też jak tego robić (na konkternym przykładzie, z konkternym kodem)
Airflow dynamic DAGs
A jak już wiesz czym Airflow jest to może zainteresujesz się dynamicznymi DAG-ami?
#management
The Art of The AI KPI
Jakimi miarami mierzyć jakość danych i wyniki ich analizy?
#python
CUDA by Numba Examples
Jak pewnie Wam wiadomo CUDA to silnik od NVidii pozwalający na wykorzystnaie kart graficznych w obliczeniach (jest wymagana chociażby dla TenforFlow jeśli ma wykorzystać GPU). A gdyby ktoś zechciał wykorzystać GPU do obliczeń ale bez użycia np. TensorFlow?
#r
Mapping wind data with R
Dokładnie tak jak w tytule – rysowanie wiatru
R Shiny & FontAwesome Icons – How to Use Them in Your Dashboards
FontAwesome to zestaw ikonek (ponad 19 tysięcy!) które możecie wykorzystać na swoich stronach WWW ale też w dashboardach robionych w Shiny (i nie tylko)
#spark
How many ways to MERGE Data Frame in Apache Spark
Coś dla pracujących na danych w Sparku – jak łączyć ze sobą różne tabele?
Implementing Count Vectorizer and TF-IDF in NLP using PySpark
To też dla tych, którzy pracują w Sparku – tym razem z tekstem. Jak przygotować macierze TF-IDF?
#wizualizacja_danych
BI tools: Three Generations
Ciekawe spojrzenie na narzędzia typu BI – szybki ich przegląd i podział na generacje. Może się przydać w poszukiwaniu odpowiedniego dla siebie albo dla Twoich współpracowników (albo na slajdy dla zarządu)
Which fonts to use for your charts and tables
Na koniec o czcionkach – których używać na wizualizacjach danych?
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)