Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
W tym tygodniu cała masa materiału związanego z prezentacją danych – jak je pokazać efektywnie, czytelnie i przy okazji jak to się robi w kodzie? Czytaj po kolei, a to mięsko w ostatniej sekcji.
Ponieważ głównym założeniem tego newslettera jest dzielenie się wiedzą – dzisiaj również coś o rozwoju kariery. Jak z juniora zostać seniorem? I co to oznacza być seniorem (w oczach juniora, ale też w rzeczywistości).
Na koniec dzisiejszych polecajek: kilka tekstów o milionach. Milionach szybko generowanych PDFów, milionach requestów do API i milionach wierszy w plikach CSV. Jak to optymalizować, żeby się szybko działo?
W przyszłym tygodniu razem z Tomkiem (pewnie kojarzycie go z naszego podcastu Silni w IT o technologiach – YouTube / Spotify (niech Was nie zmyli nazwa kanału)) będziemy opowiadać o tym jak wpleść mniej lub bardziej złożone rozwiązania machine learning i sztuczną inteligencję w architekturę różnych systemów. Kilka przykładów istniejących, kilka pomysłów, a wszystko w myśl „na skróty”, tak aby wiele się nie narobić, a coś zyskać biznesowo.
Konferencja Analityk / Architekt JUTRA jest bezpłatna (wystarczy się zarejestrować) i odbędzie się 13 marca, online.
#analiza_danych_koncepcje
Time Series Analysis Guide
Wszystko czego potrzebujesz na początek do analizy i przewidywania szeregów czasowych (w wersji podstawowej, opartej o modele ARIMA).
#architektura
Top 10 Microservices Anti-Patterns
Niby mikroserwisy, ale źle ze sobą poskładane – kilka przykładów jak nie robić
#bazy_danych
Top 20 SQL query optimization techniques
Jeden wpis na Twitterze, a wielka porcja wiedzy – 20 wskazówek dotyczących pisania szybkich zapytań SQL
#big_data
Building a Data Platform in 2024
Jak zbudować nowoczesną, skalowalną platformę danych, która usprawni Twoje projekty analityczne i związane z analizą danych (wersja dla 2024 roku)
#ciekawostki
Windows in a Docker container
Zgodnie z tytułem – Windows działający w kontenerze Dockera. Można się podłączyć do pulpitu via RDP albo na porcie 8006 z przeglądarki.
1.5+ million PDFs in 25 minutes
Pewna firma musi ze względów regulacyjnych generować olbrzymie ilości PDFów. Na przykład 1.5 miliona. Robią to w 25 minut. Zobacz jak ;-) ach, jeszcze te PDFy podpisują cyfrowo i wysyłają mailem.
#devops
13 Advanced Ways to Optimize Kubernetes Cluster Autoscaler
Siłą Kubernetesa jest automatyczne skalowania liczby potrzebnych podów w zależności od panujących warunków. Zobacz jak można zdefiniować reguły autoskalowania
13 Kubernetes Tricks You Didn’t Know
Kilkanaście sztuczek (albo cech Kubernetesa), o których być może nie wiedzieliście. Tekst świetnie współgra z tym powyżej.
#kafka
Building a Streamlined Data Pipeline
Zapisywanie komunikatów z Kafki do kolekcji w MongoDB… ale najcenniejsze w tym tekście jest wykorzystanie Kafki razem ze Schema Registry z poziomu Pythona
#llm_&_chatgpt
From Model Ranking to Model Routing
Ciekawe badanie modeli LLM – wynik którego z nich jest chętniej wybierany? Czy to oznacza, że dany model jest lepszy czy tylko zwraca bardziej odpowiednie (dla człowieka) wyniki?
#management
Guide to leading meetings as a software engineer
Wszyscy mówią, że nie lubią długich spotkań, a w świecie IT spotkanie bywa wręcz czymś na kształt kary. Jak – z punktu widzenia inżyniera – powinny wyglądać spotkania (i czas przed nimi)? PMowie, prośba o dokładne przeczytanie i stosowanie się!
Falsehoods Junior Developers believe about becoming Senior
Co juniorzy myślą o seniorach i jak to jest w rzeczywistości?
Going from Junior – Senior engineer in 2 years
Od juniora do seniora w dwa lata – świetna lista spisana przez Autora, który przeszedł taką drogę i dzieli się spostrzeżeniami. Być może jego porady pomogą Tobie w samorozwoju?
#programowanie_ogólnie
What we learned in 6 months of working on a CodeGen dev tool GPT Pilot
Jak pracuje się z copilotem podczas pisania kodu? Autor dzieli się doświadczeniami po pół roku takiej pracy z GPT Pilotem (to nie to samo co GitHube Copilot)
How fast can we process a CSV file
Milion (znowu :)) wierszy w CSV, każdy z nich ma 8 liczb. Chcemy policzyć pierwiastek sumy kwadratów każdego z wierszy. Kto poradzi sobie najszybciej?
#python
Asyncio Patterns in Python
Milion zapytań trwających jedną sekundę to ponad półtora tygodnia ciągłej pracy. A gdyby to robić asynchronicznie? Już pierwsza wersja skraca czas do pół minuty (!)
Multi-module Logging in Python
Jak przygotować w Pythonie logowanie z wielu modułów na raz?
Python Error Handling: Return instead of Raise
Zwracanie (return) błędu zamiast podnoszenie (raise) wyjątku – jest to jakaś koncepcja…
How to Parse XML Data
Dane zapisane w XMLu to już nieco zamierzchłe czasy, ale wiele istniejących usług ciągle używa XMLa jako formatu wymiany informacji. Jak takiego XMLa przeczytać i wydobyć z niego potrzebne informacje?
Python Decorators: Junior vs. Intermediate vs. Senior vs. Expert
O dekoratorach w Pythonie po raz kolejny – tym razem w podejściu od najprostszego do najtrudniejszego budowania własnych
30 Cool Python Generator Tricks For Better Code With Examples
Było o dekoratorach to będzie też o generatorach. Sporo przydatnych przykładów, które uczą czym są generatory i jakie mają możliwości oraz do czego je można wykorzystać.
#r
ggplot2 v3.5.0
Najlepszą biblioteką do przygotowywania wykresów w R jests ggplot2. Co nowego daje wersja 3.5.0?
#wizualizacja_danych
Plot(ly)ing GeoData From DuckDB
Ciekawe połączenie: w pythonowym kodzie korzystamy z DuckDB do przetwarzania danych geo, wyniki pokazujemy przy użyciu Plotly.
How to Plot Heatmaps in Seaborn?
Heatmapy świetnie nadają się na przykład do pokazania w jakich godzinach w poszczególnych dniach tygodnia mamy do czynienia z wzmożonym występowaniem badanego zjawiska. Tutaj nie o dniach tygodnia, ale o tym jak zrobić heatmapę w Pythonie z użyciem pakietu Seaborn
10 Advanced Plots for Effective Data Visualization with Matplotlib
Oprócz heatmap jest wiele innych typów wykresów, które też w Pythonie można przygotować. Kilka z nich to rzadko spotykane, ale przydatne typy
Professionally Visualize Data Distributions
Siedem metod na pokazanie rozkładu danych. Bo rozkład jest ważny.
Playbook for Attention-Grabbing Visuals
Jak sprawić, aby wykresy zawierały maksimum informacji jednocześnie przy minimalnym rozpraszaniu widza?
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)