Przejdź do treści

Newsletter Dane i Analizy, 2024-06-03

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Po dłuższym weekendzie mocny w AI numer newslettera przed Tobą. Numer, który pokrywa takie obszary AI jak obraz, tekst oraz dźwięk.
W ramach obrazu mamy tutorial PyTorcha, ale dodatkowo być może zainteresuje Cię informacja, że modele rozpoznawania obiektów na obrazach YOLO dotarły już do wersji 10 – tutaj review pejpera z opisem YOLOv10, w treści też linki do wytrenowanych modeli i kodu wykorzystujących te modele.

Oprócz AI kilka wskazówek, które mogą przydać się przy wyborach SQL czy NoSQL albo FastAPI czy Flask. Do tego aż dwa teksty o modelowaniu struktury danych w bazie, w tym bardzo konkretny (i obszerny) tutorial o kalendarzach.


#ai_ml

Training a Computer Vision Algorithm
Wprowadzenie do PyTorch i użycia go w Computer Vision. Czyli jak rozpoznać ręcznie pisane literki ze zbioru MNIST.

Building LLaMA 3 From Scratch
Skoro możemy od zera zbudować model w ramach Computer Vision, to dlaczego nie w ramach LLM?

A Complete Guide to BERT with Code
Wszystko co chcesz wiedzieć o językowych modelach BERT

Fine-tuning Faster R-CNN on Sea Rescue Dataset
Poszukiwanie morskich rozbitków. Czyli o dostrajaniu Faster R-CNN

Performing Named Entity Recognition on Audio Data
Rozpoznawanie nazw (NER) z plików audio. W przykładzie wykorzystane jest API od AssemblyAI, które daje po drodze kilka ciekawych informacji wyciągniętych z pliku dźwiękowego – chociażby dla tego warto przejrzeć ten tekst.

#analiza_danych_koncepcje

Supply Chain Process Scheduling with Python
Trzy maszyny (albo trzy czynności), które coś robią z produktem. Żaden z produktów nie może być „obsługiwany” przez dwie maszyny jednocześnie. Jak ułożyć linię produkcyjną, tak aby wykorzystanie maszyn było najbardziej optymalne a i produkcja towarów jak najszybsza (najwięcej wyprodukowanych towarów w jednostce czasu)?

#analiza_danych_projekty

Economics of LEGO Sets with Data Science
Coś o klockach LEGO. A tak na prawdę o zbieraniu i analizowaniu danych o zestawach LEGO – bardzo fajny projekt analityczny, ciekawe stryktury danych które przygotowano na potrzeby projektu.

#architektura

Database Design for Google Calendar
Model danych i uch ułożenie w bazie to jeden z ważniejszych elementów projektu informatycznego. tutaj znajdziesz obszerny tutorial o tym, jak zamodelować dane do rozwiązania typu kalendarz. Świetna dawka wiedzy!

#bazy_danych

Database Design
Jak przygotować schemat bazy danych? Czy są jakieś dobre praktyki albo sposoby, które warto stosować?

Connecting the Dots with Neo4j
O bazach grafowych na przykładzie NBA

How I choose between SQL and No-SQL solutions
W sekcji poświęconej Pythonowi mamy wybór pomiędzy FastAPI i Flask, a tutaj – pomiędzy bazami danych „w typie” SQL (czyli relacyjne bazy danych) a No-SQL (czyli bazy dokumentowe).

#ciekawostki

How the Guinness Brewery Invented the Most Important Statistical Method in Science
Najpopularniejszy test istotności pochodzi z browaru Guinness. Oto jak on działa.

#management

Unexpected Tips for Data Managers
Trzy obszary zarządzania zespołami „od danych”.

#python

Choosing FastAPI over Flask
API w Pythonie można napisać we Flasku albo w FastAPI. Kiedy użyć którego? Może któryś z tych pakietów lepiej pasuje do API a inny lepiej do np. serwowania prostych stron www?

Migrating From Flake8 and Black to Ruff
Ruff to zyskujący obecnie popularność linter (zestaw narzędzi służących formatowaniu kodu źródłowego) dla Pythona. Jak wygląda na tle popularnych Black i Flake8?

How to Read and Write Parquet Files with Python
Pliki w formacie Apache Parquet są bardzo popularne w świecie większych danych. Umie je czytać i zapisywać Pandas, Spark, radzi sobie z nimi Hive. A jak użyć ich za pomocą PyArrow?

Building Vector Databases with FastAPI and ChromaDB
Przykładowe użycie bazy wektorowej w ramach FastAPI – budowa usługi szukającej podobnych tekstów

#r

Easy data cleaning with the janitor package
Pakiet janitor ułatwia najnudniejszą część pracy z danymi – ich porządkowanie, czyszczenie, systematyzowanie nazw kolumn itp. zabiegi. To pakiet dla R, a dla Pythona jest odpowiednik o nazwie pyjanitor.

#wizualizacja_danych

Awesome Strategies to Visualize Change with Time
Kilka pomysłów jak efektownie (i efektywnie – co właściwie ważniejsze przy prezentacji danych) pokazać zmianę w czasie?


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *