Newsletter Dane i Analizy, 2023-11-19

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Ci, którzy śledzą newsletter i fanpage’a Dane i Analizy, profil na LinkedIn (oraz moje prywatne profile, np. na LI) wiedzą zapewne, że w ramach kampanii PZU silni w IT przygotowaliśmy serię podcastów o sztucznej inteligencji.

W pierwszym odcinku rozmawiamy raczej filozoficznie, o tym czym jest AI i czy potrzebujemy dla niej jakichś regulacji (słuchaj na YouTube lub Spotify).
W drugim skupiamy się na zagadnieniach HRowych – kim jest data scientist, co robi i – to chyba najważniejsze – jakich kompetencji się oczekuje od takiej osoby? (Spotify / YouTube).
W tym tygodniu powinny pojawić się dwa kolejne odcinki, w kolejnym jeszcze dwa. Poruszamy w nich zagadnienia związane z big data i dostarczaniem danych do nauki AI, rozmawiamy o computer vision, modelach językowych, a na koniec bezpieczeństwie.

A jeśli masz już za sobą nasze z Tomkiem (i gośćmi) gadanie to polecam debatę o sztucznej inteligencji – Duch, Dragan i Przegalińska (YouTube, dwie i pół godziny) poruszają wiele aspektów związanych z rozwojem i bezpieczeństwem AI.

Z planów „do przodu”: w czwartek i piątek konferencja Data Science Summit w której mam przyjemność uczestniczyć (już nie jako „gadająca głowa”, a po prostu widz). Mam nadzieję, że kilka ciekawych prelekcji będzie – idę o zakład, że GenAI, LLM i GPT zdominują wszystkie ścieżki w tym roku.

#analiza_danych_koncepcje

The Graph Coloring Problem: Exact and Heuristic Solutions
Jak pokolorować wierzchołki grafu?

#analiza_danych_projekty

Hyperparameter Tuning: Neural Networks 101
Jak poprawić wyniki sieci neuronowej? Na przykład odpowiednio budując jej architekturę – liczbę warstw, liczbę neuronów czy też rozmiar próbek treningowych. Można do tego użyć hyperopt i o tym jak to zrobić jest ten tekst

XGBoost model in Amazon SageMaker
Jak wytrenować, a potem wdrożyć model oparty na XGBoost na platformie SageMaker?

#big_data

Elastic Agent’s new output to Kafka
Elastic wprowadza możliwość wysyłania danych na Kafkę, jako wbudowany agent.

Efficient Data Storage for Analytics
Co nie co o plikach Parquet

#ciekawostki

Data Engineering Books
Przegląd kilkunastu książek – zdaniem autora najlepszych – z dziedziny data engineeringu. Książki te też często dostępne są w Polsce (np. w Helionie), czasem mają nawet polskie tłumaczenia

Hidden Markov Models Explained with a Real Life Example and Python code
Trenowanie psa jako przykład ukrytego łańcuchu Markova

#devops

Portainer – GUI dla Dockera
Używając kontenerów Dockera możesz korzystać z shella i stosownych poleceń, ale być może łatwiej jest użyć GUI?

Deploying a Python Shiny application in Azure
Jak wdrożyć aplikację Shiny napisaną w Pythonie (a od około pół roku można pisać w Pythonie Shiny) na Azure? A właściwie jak wdrożyć dowolny obraz dockerowy na Azure?

#llm_&_chatgpt

RAG: How to Talk to Your Data
Pełny proces przygotowania danych tekstowych do odpytywania przez modele LLM – od wczytania, podzielenia tekstu do wygenerowania embedingów i osadzenia ich w stosownej bazie.

RAG vs Finetuning — Which Is the Best Tool to Boost Your LLM Application?
Którą metodę douczania wybrać, aby poprawić swój model LLM?

#mlops

5 Levels of MLOps Maturity
Pięć poziomów dojrzałości w ramach MLOps – od w pełni ręcznych procesów do automatyzacji.

#programowanie_ogólnie

Confusing git terminology
Swoją drogą – ciekawy blog o różnych zakamarkach gita

#python

Harmonizing Avro and Python: A Dance of Data Classes
Avro to format do przesyłania danych opisany konkretnym schematem – narzucającym chociażby strukturę i typy przesyłanych danych.

Embeddings and Vector Databases With ChromaDB
Wektorowe bazy danych są kluczowym elementem wielu aplikacji NLP. W tym samouczku zdobędziesz praktyczne doświadczenie z ChromaDB, wektorową bazą danych typu open source, która szybko zyskuje na popularności. Przy okazji, na praktycznych przykładach dowiesz się, co jest potrzebne do zrozumienia wektorowych baz danych.

Microsoft SSO in FastAPI
Przykład implementacji SSO poprzez konta Microsoft. W tekście znajdziesz też linki do przykładów SSO via Facebook, Google, Github oraz Spotify

No Need to Ever Write SQL Again
Za pomocą ORM (Object Relational Mapping) możesz tworzyć tabele, wstawiać, czytać, usuwać i aktualizować dane bez pisania ani jednej linii kodu SQL. Na przykładach w Pythonie z SQLAlchemy

#r

The Fast and the Curious: Optimizing R
Optymalizacja kodu w R – które elementy wykonują się najwolniej i należy je zoptymalizować?

R Shiny Modules: How to Create Your First R Shiny Module – R programming
R Shiny Modules allow you to improve structure of your Shiny app. Make sure to know the optimal way to use them.

#wizualizacja_danych

Improving the Strava Training Log
Interesujący sposób prezentacji danych zebranych przez Stravę.

15 Best Shiny Dashboard Examples
Przegląd dashboardów przygotowanych w Shiny – ku inspiracji

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)