Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Ostatnio we wstępie pisałem o tym, że do #devops wpadają wszystkie rzeczy związane z dokeryzacją, drobnymi programami i usprawnieniami używanymi w konsoli. Dzisiaj wprowadzam sekcję #DataEngineering. Powód jest dość prosty: najciekawsze są takie projekty, gdzie dane pobieramy, przetwarzamy, przesyłamy, gromadzimy, potem znowu przetwarzamy i pokazujemy użytkownikowi końcowemu. Prawie każdy taki projekt obecnie wykorzystuje AirFlow, Pythona, Kafkę, jakieś narzędzia BI, jakiś storage w postaci bazy danych albo na przykład Hadoopa. I do czego przypiąć taki tekst? Właśnie do „inżynierii danych”.
Jednocześnie ten data engineering to obecnie – moim zdaniem – najbardziej przyszłościowy kierunek pracy. Bo ML zrobi się sam – jak będzie wystarczająco dużo danych to rozwiązania AutoML wyplują nam zadowalający model, być może bez „kręcenia śrubkami” będzie on wystarczający. Ale automatyczne rozwiązania nadal potrzebują danych (sztuczna inteligencja nie wykształci się sama, bez danych) i właśnie po to jest data engineer – żeby te dane zebrać i przygotować.
Czy to „sexiest job in the 21st century”? Może nie „sexiest” ale najbardziej – znowu: według mnie – pożądana.
#ai_ml
AI in 2023: A year in review
Co wydarzyło się w AI w 2023 roku? Oczywiście LLM i generowanie grafiki.
#airflow
Mastering Airflow Variables
Airflow pozwala na zdefiniowanie zmiennych, których można później użyć w DAGach. Zobacz jak
How to use the DockerOperator
Czy z poziomu Airflow można uruchomić kontener Dockera? Można. Airflow pozostaje orkiestratorem, a cała właściwa robota opakowana jest w kontenerze
#analiza_danych_projekty
Who Dies Next in Game of Thrones?
Analiza sieci społecznych w „Grze o tron” jako sposób na przewidzenie kto umrze następny
Ant Colony Optimization
Mrówki znajdują najkrótszą drogę – jak to się dzieje na poziomie algorytmów?
#bazy_danych
Six DuckDB SQL enhancements you should learn
Wbrew pozorom nie mam żadnych udziałów w DuckDB – to po prostu fascynujące narzędzie! A ten artykuł pokazuje te najprostsze cechy
Essential Best Practices for Optimal Performance
Kilka sposobów na przyspieszenie pracy PostgreSQL – bo nie zawsze same zapytania są wolne. Właściwie to 30 a nie kilka :)
How we migrated our PostgreSQL database with 11 seconds downtime
Brytyjskie serwisy rządowe przeszły migrację danych w PostgreSQL. Użytkownicy nie zauważyli. Jak to się stało?
#ciekawostki
Tools and automations that allow me to work 10x more efficiently
Grzegorz przedstawia szereg narzędzi no-code, które pomagają mu w codziennej pracy i w organizowaniu biznesu, znacznie zwiększając jego wydajność. Warto rzucić okiem. Z pewnością znajdziesz tam aplikacje, z których nie korzystasz, a które mogą usprawnić Ci pracę lub życie. Godzina na YT, po polsku wbrew tytułowi.
#data_engineering
YouTube Realtime Data Engineering
Projekt przetwarzający dane pobrane z YouTube i analizujący je za pomocą ksqlDB (to jest w części wideo)
ETL and Data Pipelines using Airflow and Kafka
I jeszcze jeden projekt – tym razem prostszy, ale dość szczegółowo opisujący użyte technologie, którymi są tutaj Kafka i Airflow
#flink
Kafka Flink Data Pipeline
Wprowadzenie do przetwarzania danych w Apache Flink
#java
Getting Started With Data Analysis in Java
Przyjęło się, że do analizy danych wykorzystywany jest Python albo R. Ale nikt nie powiedział, że nie można tego robić w Javie
#kafka
Kafka on Kubernetes
Kafka rozpięta na Kubernetesie, aby zmniejszyć ryzyko awarii.
How Intersport uses Apache Kafka as Database with Compacted Topic in Retail
Kafka to nie tylko „rura transmisyjna” ale może też służyć jako baza danych.
#management
Demystifying Project Estimation
Jak wyceniać projekty?
#programowanie_ogólnie
How well-structured should your data code be?
Napisanie kodu, żeby działał to jedno. Często na tym kończą się projekty ML. Ale potem przychodzi czas na rozwój i wówczas nieuporządkowany kod tylko utrudnia pracę…
#python
Performance Analysis of Python’s `dict()` and `{}`
TL;DR – {} szybsze.
Powerful One-liners in Pandas Every Data Scientist Should Know
Kilkanaście mniej znanych rozwiązań w Pandas, które przyspieszą pracę, bez pisania kolejnych linii kodu.
Introducing Python Classes and Dataclasses
Wszysko czego potrzebujesz na początek o programowaniu obiektowym w Pythonie.
Simplifying GUI Development in Python
Zazwyczaj aplikacje w Pythonie działają w konsoli albo jako backend używany np. przez wywołania w JavaScripcie. Ale nic nie stoi na przeszkodzie, żeby stworzyć aplikację z GUI, w czym pomoże pakiet PySimpleGUI. A tutaj znajdziesz wprowadzenie pokazujące jak używać podstawowych elementów interface’u.
#spark
5 Examples to Master PySpark Window Operations
Trochę o operacjach na grupach (w oknach) w Sparku
Hands on: PySpark + Kafka Streaming + OpenAI
OpenAI pomaga w przygotowaniu sztucznych danych w zadanym formacie (ale dlaczego nie np. Faker?…), które wysyłane są Kafką, a odbierane przez Spark Streaming. Ot, taki przykładowy projekcik
Fixing small files performance issues in Apache Spark
DataFlint to biblioteka do monitorowania wydajności dla Apache Spark. Dzięki niej możemy sprawdzić gdzie nasze sparkowe joby dostają zadyszki – na przykład na zbyt małych plikach na HDFSie.
#wizualizacja_danych
Top 10 Power BI Dashboard Examples in 2024
Ku inspiracji
#środowisko_pracy
AI Tools You Can Use in Visual Studio Code Besides GitHub Copilot
Czy są jakieś darmowe rozwiązania analogiczne do GitHub Copilota? Są, a tutaj znajdziesz przegląd rozszerzeń dla VSCode
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)