Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Machine learning czy też sztuczna inteligencja to nie są czarne skrzynki które dają odpowiedź na każde pytania. Owszem – ML/AI daje odpowiedzi (lub nie) na konkretne pytania (trzeba umieć je postawić, ale też zaakceptować niepewność odpowiedzi) i – po setkach spotkań z biznesem – to wydaje się najtrudniejsze do zrozumienia. AI da odpowiedź na konkretne pytanie – czy na obrazku jest pies czy kot albo jaka zapewne będzie wartość takiego czy innego wskaźnika za dwa tygodnie (skoro ostatnie pół roku było tak). A oprócz tego wszystkiego – AI/ML wymaga sporo pracy, o czym możecie przeczytać w opracowaniu Machine Learning Operations (MLOps): Overview, Definition, and Architecture.
Bardzo interesujące jest porównanie algorytmów do wykrywania tematów w tekstach. Znany LDA okazuje się być gorszy niż BERTopic. Szczegóły w Is LDA Topic Modeling Dead?
I jeszcze hit na koniec: platforma dla danych danych nowej generacji, oparta na narzędziach open source (Iceberg + Spark + Trino + Dagster), odpalana przez docker-compose up? Dlaczego nie?! Dzisiaj sporo o narzędziach big data, miłej lektury!
#AI_ML
What’s the Difference Between a Metric and a Loss Function?
Czym różni się metryka błędu dla modelu AI/ML od funkcji straty? Czy ta różnica coś znaczy?
Three Ways to Build Machine Learning Models in Keras
model = Sequential(…)
Pewnie znacie to, jeśli piszecie w Keras? A wiecie, że to nie jest jedyny sposób zdefiniowania modelu? Są jeszcze (co najmniej) dwa inne, oba dające większe możliwości
Evaluate the Performance Of Deep Learning Models in Keras
Solidny sposób oszacowania wydajności modeli głębokiego uczenia to istotnia sprawa. W tym artykule przedstawiono trzy sposoby na walidację modeli: użycie zestawu danych do weryfikacji automatycznej, użycie zestawu danych do weryfikacji ręcznej, oraz ręczną weryfikację krzyżową k-fold
Everything you need to know about ALBERT, RoBERTa, and DistilBERT
Przegląd różnic i podobieństw różnych transformatorów BERT oraz sposobu ich wykorzystania z biblioteki transformatorów Hugging Face
Is LDA Topic Modeling Dead?
LDA jest potężnym narzędziem do rozpoznawania tematów o których jest tekst, ale jego niestabilność jest główną przeszkodą. BERTopic nie cierpi na ten problem niestabilność, zaś z praktycznego punktu widzenia BERTopic jest również łatwiejszy w użyciu, ponieważ nie ma wstępnego przetwarzania tekstu i wymaga znacznie mniej zasobów niż LDA.
#big_data
Od hurtowni danych przez data lake do data lakehouse
Co jest po co, czego potrzebujesz i jakie są ograniczenia?
ngods (new generation open-source data stack)
Platforma dla danych danych nowej generacji, oparta na narzędziach open source (Iceberg + Spark + Trino + Dagster) – krótkie przedstawienie oraz – co ważniejsze – repo z działającym demo
What, exactly, is dbt?
dbt (data build tool) umożliwia analitykom danych i inżynierom przekształcanie danych w ich hurtowniach. Czyli że konkretnie co to jest?
Getting hands-on with DBT
A skoro już wiemy czym DBT jest – to może przykładowy projekt?
#ciekawostki
Jak udoskonalić projekt-monolit przed migracją na mikroserwisy?
Zanim wykonasz ten krok i zaczniesz przebudowywać wielką, monolityczną aplikację na mikroserwisy, wypada najpierw nieco ją posprzątać i ogarnąć. Artykuł da Ci listę 12 tematów do ogarnięcia na początek
How to use Customer Lifetime Value (LTV) for data-driven transformation
Wskaźnik LTV (jak się okazuje może być zdefiniowany na różne sposoby – przykłady w tekście) powinien być jednym z pierwszych wskaźników w organizacji która chce być data-driven
The Evolution of Media: Visualizing a Data-Driven Future
Media i dostarczanie informacji zmieniają się w coraz szybszym tempie. Oto dlaczego przyszłość będzie bardziej oparta na danych, przejrzysta i weryfikowalna
#python
Discord bots in Python
Jak napisać prostego bota dla Discorda? Jeśli komunikujesz się w zespole za pomocą Discorda to może to być przydatne
#r
Relationship Extraction with Spacyr
Spacyr to „opakowanie” na pythonową bibliotekę spaCy – według mnie najbardziej przyjazną (i z najbogatszymi słownikami) do analizy tekstu. Zobaczmy jak jej użyć w praktyce
#wizualizacja_danych
Five Advanced Data Visualizations All Data Scientists Should Know
Jak już opanujemy wykresy słupkowe, punktowe i liniowe to może coś bardziej zaawansowanego, a dającego możliwości interesującego zaprezentowania danych i relacji między nimi?
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)