Newsletter Dane i Analizy, 2022-11-21

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Zaczęło się święto piłki nożnej, jutro pierwszy mecz Polaków. Czy pierwszy z trzech? A może z czterech (i to będzie wielki sukces polskiej reprezentacji)? Nie wiadomo.

Jak to zwykle bywa przy okazji takiej imprezy powstają różne predykcje, modele, różne psy, koty czy ośmiornice pomagają wytypować zwycięzców. Niektórzy uważają, że nie da się takich modeli przygotować, inni nawet to wiedząc próbują. Matematycy z Oxfordu przygotowali model, według którego faza pucharowa będzie wyglądała następująco:

Źródło grafiki to konto Uniwersytetu na Twitterze, a więcej na temat sposobu przygotowania odpowiednich modeli znajdziecie w dedykowanej sekcji w dzisiejszym wydaniu newslettera.

#AI_ML

Leaky ReLU vs. ReLU Activation Functions: Which is Better?
Która funkcja aktywacji w sieciach neuronowych sprawdza się lepiej? Znane i powszechnie stosowane ReLU czy może nieco bardziej łagodne, nieco przepuszczająca wersja?

#airflow

Airflow Production Tips: Proper Task (Not DAG) Catchup
Apache Airflow stał się de facto standardem orkiestracji danych. Jednak na przestrzeni lat i wersji nagromadził się zestaw niuansów i błędów, które mogą utrudniać jego wykorzystanie w produkcji

How to Keep Data Quality in Check with Airflow
Jak dbać o jakość danych przy użyciu Airflow? Poza tym tekstem warto przejrzeć całego bloga – sporo tam wiedzy z wykorzystania Airflow

#analiza_danych_koncepcje

Machine Learning Algorithms Cheat Sheet
Absolutnie podstawowe algorytmy ML i absolutnie podstawowe przykłady ich użycia w Pythonie

Forecasting: Principles and Practice
Pełna książka o przewidywaniu przyszłości, skupiona na szeregach czasowych oraz pakiecie forecast znanym z R

25 A/B Testing Concepts
„O co chodzi z tymi testami A/B?” Co powiesz jak dostaniesz takie pytanie na rozmowie kwalifikacyjnej? Albo jak będziesz biznesowi opowiadać „co możemy zrobić i na czym to polega” (to moja ulubiona rola – czarowanie i consulting)? Czasem wystarczy „połowie pokazujemy A, drugiej połowie B i patrzymy co lepiej działa”. Ale co to znaczy „lepiej”? Jak to zmierzyć? O tym jest to kompendium wiedzy

How Uber Optimizes the Timing of Push Notifications using ML
Notyfikacje push dla Uber Eats to jeden z kanałów marketingowych. Ale kiedy je wysyłać? Czy w ogóle wysyłać? Takie zagadnienia okazują się być również „sterowane” modelami ML a nie tylko „wyczuciem biznesowym”

#big_data

Exploring Popular Open-source Stream Processing Technologies
Pierwszy z dwóch artykułów omawiających „rodzinę i znajomych” technologii Apache służących do przetwarzania danych strumieniowych. Świetne wprowadzenie z przykładami „co i jak”

Building Spark Data Pipelines in the Cloud
Ten wpis obejmuje podstawowe problemy przedprodukcyjne dla potoków danych opartych na platformie Spark w chmurze. Żadna z informacji nie może być uważana za nową per se, ale może to zaoszczędzić trochę wysiłku zarówno w identyfikacji, jak i/lub projektowaniu rozwiązań tych powszechnych problemów.

#ciekawostki

Which Face Is Real?
Czy jesteś w stanie odróżnić, która z twarzy pochodzi z projektu “This person doesn’t exists”, a która jest fotografią realnej osoby? Muszę przyznać, że AI staje się coraz bardziej skuteczne w generowaniu obrazów, bo jeśli fotka nie ma jakichś znaczących defektów i artefaktów, to myliłem się w 60% przypadków.

A Better Approach to Networking
Masz problem z poznawaniem nowych osób? Na przykład w „poszerzaniu sieci kontaktów” podczas konferencji? Ten artykuł przedstawia interesujący koncept na „przełamywanie lodów”

Your next smart home device is a $30 used Kindle
Chcesz prezentować dane (np. prognozę pogody, kursy walut itp.) na wyświetlaczu e-ink? Można to zrealizować z użyciem Raspberry Pi połączonego z wyświetlaczem e-ink, ale można o wiele taniej użyć starego Kindle. Sztuczka polega na zrootowaniu urządzenia i zmuszeniu go do wyświetlania statycznego, odświeżanego (po stronie serwera) co minutę obrazka

#devops

Convert JSON file to YAML using JQ
Niektórzy wolą YAMLe od JSONów. Przy pomocy świetnego narzędzia jakim jest JQ można te drugie przekształcić na te pierwsze

A Visual Guide to SSH Tunnels (with labs)
Czym różni się lokalne forwardowanie od zdalnego? o co chodzi z tunelem reverse? Jak to wszystko działa, do czego jest użyteczne i jak to skonfigurować? Odpowiedzi na te pytania poznasz, czytając ten poradnik

#mundial

A Mathematician’s Guide to the World Cup
Jak matematycy z Uniwersytetu w Oxfordzie przewidują wyniki Mundialu? Prezentacja o kolejnych podejściach i przybliżeniach w budowaniu modelu predykcyjnego

Predicting The FIFA World Cup 2022 With a Simple Model using Python
Prosty model do przewidywania zwycięzców w Katarze

Using ML and Dataiku to Make 2022 FIFA World Cup Predictions
Predykcje mundialowe – podejście Dataiku

Machine learning of a 2022 FIFA World Cup multiverse
Trzy modele mające dać wynik tegorocznego Mundialu – omówienie podejścia i interesujące wizualizacje

#programowanie_ogólnie

The struggles of building a Feed Reader
Opis nieoczywistych problemów, na jakie napotkał programista, gdy zabrał się za tworzenie czytnika RSS. Jego aplikacja miała trochę więcej możliwości niż tylko czytanie feeda. Warto rzucić okiem, zwłaszcza jeśli kiedykolwiek zapragniesz dodać do swojej aplikacji obsługę RSS-ów.

#python

How to create a Python package in 2022
Chcesz opublikować swoją paczkę w repozytorium? Jak ją zbudować, jak przygotować testy, o jakie elementy musisz zadbać przed rozpoczęciem jej oficjalnej dystrybucji? Na te i inne pytania poznasz odpowiedź w tym rozbudowanym artykule

Write Chrome Extensions in Python
Ale jak to rozszerzenie do przeglądarki w Pythonie? Tak – dzięki PyScript już się da i to – podobno – bez większego bólu

A Collection of Must-Know Techniques for Working with Time Series Data in Python
Kilka prostych przykładów jak delikatnie manipulować (np. wypełniając braki) i prezentować na wykresach szeregi czasowe zapisane w postaci data frames

Be Pydantic with PyArrow
Jeśli znacie dataclasses to Pydantic jest krokiem dalej.

21 Pandas Tips Every Data Scientist Should Know
Pandas to pewnie najpopularniejsza biblioteka do manipulowania danymi w Pythonie. Ale czy znasz wszystkie jej tricki? Zobacz i porównaj ile razy Twój kod zajmował po kilka linijek, na które jest gotowa funkcja (tak, można się zdziwić – dla mnie osobiste zaskoczenie to punkty 7, 11, 20)

#sql

How to write SQL Query to Find all those wines which contain specific aromas?
Nauka pisania zapytań w SQL może sprowadzać się do przykładów „znajdź departamenty w których średnia zarobków pracowników jest większa niż X” albo też przykładów o winach. Wina wydają się być ciekawsze ;-)

#wizualizacja_danych

Contour Plots and Word Embedding Visualisation in Python
Jak narysować tekst? Przykład skupia się na danych zebranych z bazy filmowej IMDb

#środowisko_pracy

IntelliJ debugger tips & tricks
Jak dobrze znasz IntelliJ i wykorzystujesz go do debugowania swojego kodu w Javie? Nagranie wystąpienia z Confitury 2022, konferencji poświęconej głównie JVM

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)