Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Używacie Postmana do współpracy z API? Na przykład do testowania własnych usług albo rozpoznawania cudzych? Poznajcie Bruno – alternatywę, w 100% offline i open soruce. Bruno jest oddzielną aplikacją (okienkową i w CLI) oraz dodatkiem do VSCode. Zamiast czytać możecie też zobaczyć kilkunastominutowe demo.
„Czego powinniśmy się spodziewać, a co jest tylko szumem medialnym? Jaka jest różnica między obietnicą tej technologii a praktyczną rzeczywistością?”. Najnowszy artykuł Stephanie Kirmer (Ekonomia generatywnej AI) przedstawia bezpośrednie, bezkompromisowe spojrzenie na biznesowe przypadki produktów AI oraz zadaje pytanie, o to jaki jest model biznesowy dla generatywnej AI, biorąc pod uwagę to, co wiemy dzisiaj o technologii i rynku?
Z kolei – w specjalnym odcinku podcastu „Silni w IT o technologiach” – razem z Tomkiem Wilińskim gościliśmy Bartka Gołębiowskiego i rozmawialiśmy o tym Czy hype już opadł? czyli o Gen AI w 2024 roku (YT, 26 minut).
#ai_ml
Optimizing Website Conversion Rates with Machine Learning
W pierwszej części mamy utworzenie sztucznych danych, potem zobrazowanie podstawowych parametrów związanych z wizytami na WWW – to już jest interesujące. Ale clue tekstu to modelowanie i wykorzystanie LightGBM do określenia konwersji użytkownika.
Tips for Tuning Hyperparameters in Machine Learning Models
Żeby z danej klasy modelu wycisnąć jak najwięcej warto dobrać odpowiednie hiperparametry tego modelu. Jak to zrobić? Ćwiczenie – wykorzystaj tekst wyżej i opisane tutaj metody w ramach jednego ćwiczenia.
#analiza_danych_koncepcje
A Visual Understanding of Decision Trees and Gradient Boosting
Głęboka analiza matematyczna wraz z dokładnym, fachowo zilustrowanym opisem drzew decyzyjnych oraz metody wzmacniania gradientowego, obejmująca zarówno ich działanie, jak i wdrożenie tej drugiej techniki od podstaw w Pythonie.
5 PCA Visualizations You Must Try On Your Next Data Science Project
Które cechy mają największe znaczenie? Jak oryginalne cechy wpływają na główne składowe? Odpowiedzi na te pytania dostarczą te 5 rodzajów wizualizacji.
#analiza_danych_projekty
Visualising Strava Race Analysis
Używasz Stravy? A jeździsz albo biegasz ze znajomymi na tej samej trasie, w tym samym czasie? Porównajcie swoje osiągi!
#big_data
Building a Local Data Lake from scratch
Projekt ma na celu pokazanie, jak zbudować system umożliwiający ekstrakcję, transformację i ładowanie danych do lokalnego data lake oraz zapytania tych danych za pomocą silnika SQL. Data lake mamy w domu!
How To Log Databricks Workflows with the Elastic (ELK) Stack
W artykule omówiono wstępne aspekty konfigurowania niezawodnego rozwiązania do rejestrowania i monitorowania danych z wykorzystaniem pakietu ELK Stack w połączeniu z Databricks.
#data_engineering
The Top 10 Data Lifecycle Problems that Data Engineering Solves
Artykuł porusza niektóre z największych wyzwań, z jakimi mierzą się inżynierowie danych podczas pracy z potokami w całym cyklu życia danych. Jako inżynier danych często możesz mieć do czynienia z ogromnymi wolumenami różnych typów danych, w tym danymi niestrukturalnymi, pochodzącymi z różnych źródeł, takich jak bazy danych, jeziora danych i interfejsy API stron trzecich. Autor artykułu omawia wszystkie ważne etapy przetwarzania danych, od gromadzenia i analizy po przechowywanie i niszczenie, i dzieli się najlepszymi praktykami do stosowania na co dzień.
#java
Insert JSON Object to PostgreSQL using preparedStatement
Java dla początkujących, w szczególności tych, którzy w ramach PostgreSQL chcą trzymać obiekty JSON.
#llm_&_chatgpt
The Art of Prompt Writing
W świecie sztucznej inteligencji i uczenia maszynowego umiejętność pisania promptów stała się czymś kluczowym. W tym artykule znajdziesz zbiór kilkunastu porad, które pozwolą Ci tworzyć lepsze zapytania i lepiej zrozumieć, jak porozumiewać się z modelami językowymi.
#mlops
Algorithm-Agnostic Model Building with MLFlow
Przyjazny dla początkujących przewodnik krok po kroku dotyczący tworzenia ogólnych potoków ML przy użyciu mlflow.pyfunc
#python
Split Excel Worksheets with Python: A Step-by-Step Guide
Ostatnio łączyliśmy niemalże 400 plików CSV w jedno (Sas nie dał rady z kolumnami które miały takie same nagłówki, ale w różnej kolejności… Nikt: „Biedny Sas”). Tutaj mowa o rozdzielaniu arkusza Excela (i pewnie dałoby się to zrobić samym Pandasem)
Python Poetry: The Best Data Science Dependency Management Tool?
pyproject.toml zamiast requirements.txt – czyli o panowaniu nad zależnościami poprzez poezję.
Asynchronous Iterators and Iterables in Python
Asynchroniczne funkcje są stosunkowo proste do opanowania, a iteratory? Ten tekst przedstawia wszystko co niezębne w tej kwestii.
Top 15 Plotly Features for Stunning Data Visualizations in Python
Jakieś 10 typów wykresów w Plotly i garść dodatkowych uwag na ich temat.
Spatial Interpolation in Python
Mamy dane przestrzenne, ale w niektórych miejscach tej przestrzeni są białe plamy. Jak je wypełnić? Tak, aby odległość od miejsc, gdzie plam nie ma miała znaczenie?
#spark
The Truth About PySpark’s Repartition
Funkcja repartition() – jak naprawdę dystrybuuje dane w partycjach?
#sql
Guide to Read and Write SQL Queries
Jak czytelnie pisać i jak czytać zapytania SQL. Dla początkujących, ale nawet senior może zerknąć i być może zmienić swoje nawyki, dzięki czemu kod będzie czytelniejszy.
#ux
Chinese app design: weird, but it works. Here’s why
Interesujące wideo (10 minut, YT, po angielsku) o tym dlaczego chińskie aplikacje mobilne mają wszystko (aplikacja typu WeChat – niby czat, ale można nią płacić, skanować QR kody i robić masę innych rzeczy) i wyglądają tak pstrokato. Mały spoiler, ale w celu zachęcenia: kontekst kulturowy.
#wizualizacja_danych
3 Key Things You Must Change Right Now To Make Your Charts Stand Out
Tekst o dostosowaniu domyślnego wykresu przygotowanego przez pythonową bibliotekę Matplotlib do wersji bardziej czytelnej. Niby Python, ale jednak o poprawianiu czytelności wykresów.
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)