Newsletter Dane i Analizy, 2022-11-14

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Dziękuję przede wszystkim za wypełnienie ankiety! Chyba najbardziej za średnią ocen 8.7. Jeśli nie wypełniłaś/wypełniłeś jeszcze ankietki to poszukaj maila z minionej środy i przeklikaj w te trzy minutki kilka pytań. Pomoże w rozwoju newslettera, część uwag już wziąłem sobie do serca.

Dzisiaj szerokie spektrum tematów. Starałem się, aby każdy z tekstów które tutaj trafiły porządnie zgłębiały temat, a nie były zwykłym „baitem”. Mam nadzieję, że udało się wybrać to najsmaczniejsze. Szczerze mówiąc z około 90 potencjalnych kandydatów tylko te przeszły selekcję.

Pamiętacie o rabatach na Karty Data Science? Każdy lubi rabaty, a ja daję bezterminowo 15% zniżki!

Dla przypomnienia: Karty Data Science to zestaw, który pozwoli Ci uporządkować wiedzę z zakresu na przykład przed rozmową rekrutacyjną albo egzaminem. Znam te karty i ręczę, że to kawał dobrej roboty.

#analiza_danych_koncepcje

The Word2vec Classifier
O co chodzi z Word2Vec? Tomas Mikulov wymyślił to w 2013 roku, a ten cykl opowiada o idei algorytmu który pozwala na równania typu „król – mężczyzna + kobieta = królowa”

3 easy hypothesis tests for the mean value
Powiedzmy, że mierzymy coś w rodzaju wysokości Mount Everestu. Wiemy, że to 8848 metrów. Po zmierzeniu otrzymujemy 8840 metrów ze standardowym błędem 20 metrów. Czy nasza średnia wartość różni się statystycznie od znanego wzrostu?

A Comprehensive Guide to training CNNs on TPU
A gdyby tak przyspieszyć trenowanie modeli przygotowanych w TensorFlow? Na przykład używając TPU? Tylko jakt…

An Introduction to Topic-Noise Models
Mechaniczne podsumowanie tekstu to między innymi określanie tematów, o których tekst opowiada. Najczęstsze przykłady pokazują jak znaleźć słowa istotne dla tekstu i tym samym opisujące temat. Tutaj jenak idziemy kawałek dalej

#analiza_danych_projekty

Tracking the War in Ukraine: A Data Engineering Project
Przygotujmy pełny projekt korzystający z PySpark, Airflow i Streamlit. Niech zbiera dane, odkłada je, przetwarza w odpowiedni sposób, a na koniec pokazuje je w dedykowanej aplikacji Streamlit

Summarize a text with Python
Czytanie długich tekstów może być męczące ;-) zatem można użyć uczenia maszynowego do przygotowania podsumowania tekstu i tym samym skrócenia go. Tutaj znajdziecie skrótowy tutorial opisujący taki proces, w oparciu o Pythona i pakiet NLTK

#big_data

Orchestrating Data/ML Workflows at Scale With Netflix Maestro
Maestro – framework od Netflixa pozwalający na zarządzanie potokami danych i procesów ML

Running Apache Hive 3, new features and tips and tricks
Co nowego przynosi Hive 3?

#ciekawostki

Pobierz do Excela dane z obrazu!
W aplikacji mobilnej Excel znaleźć można od jakiegoś czasu wczytywanie tabel ze zdjęcia lub obrazu (skanu). Teraz ta sama funkcjonalność uzupełniła źródła danych na karcie Dane. Jak jej użyć?

#devops

Grafana for GitHub Actions Workflows
Grafana do monitorowania procesu wdrożeń – na przykładzie akcji w GitHubie (pewnie z Bitbucketem i Bamboo też by się dało)

Apache Airflow: deploy DAGs from git
Kiedy już mamy Airflow i cały zestaw DAG-ów możemy zechcieć wdrażać je z Gita. I co wtedy?

Leverage Podman with a Desktop App
Po ostatnich zmianach w licencji aplikacji Docker Desktop, jej legalne użycie w dużych korporacjach może nie być już możliwe bez płacenia za licencję. Co więc robić? Można zmigrować się na Podman Desktop i za jego pomocą zarządzać lokalnymi kontenerami. Aplikacja działa na Windowsie, Linuksie i Macu

Handling secrets in your Ansible playbooks
Co zrobić z hasłami czy tokenami dostępowymi do serwisów kiedy używamy Ansible? Przecież nie zmieścimy ich otwartym tekstem w skryptach…

10 ways AI and ML are accelerating DevOps
Czy ML/AI może przyspieszyć lub poprawić procesy DevOps?

#kafka

Implementing Data Contracts
Słowo o kontraktach między systemami wymieniających dane. Po naszemu: schematy wiadomości i Schema Registry. Do czego się przydaje, dlaczego istotne.

#management

Different Types Of „Data Engineering” Teams
Co robią zespoły „inżynierów danych”?

Translating Tech Talk for Management and Users
Jak z managementem i użytkownikami biznesowymi rozmawiać o projektach dotyczących przetwarzania danych? Jak głęboko wnikać w część techniczną? A może wcale?

#programowanie_ogólnie

Documenting Distributed Systems
Jak opisywać systemy połączone, połączenia i interface’y między mikroserwisami czy też wiele źródeł danych? Przy pewnej skali utrzymanie takiej dokumentacji zaczyna być problemem…

#python

How to set up Logging for Python Projects
Logowanie w nieco większych projektach pythonowych niż jeden plik .py. Tutaj z myślą o projektach ML, ale wprowadzenie do logowania pasuje do wszystkich

Write Your Own Transformer for Scikit-Learn Pipelines
Potoki przetwarzania danych w ramach Scikit-Learn. Czasem potrzebna czegoś własnego (jakiejś warunkowej transformacji zmiennych albo wymyślnego uzupełniacza brakujących danych), innego niż dostępne standardowo w bibliotece. Jak sobie z tym poradzić? Napisać odpowiednią klasę! Jak? Tutaj się tego dowiesz!

What is EXIF Data in Images?
Wiecie, że zdjęcia (ogólnie rzecz biorąc obrazki) mogą mieć zaszyte w plikach metadane oprócz samego obrazu? Te metadane zwykle nazywane są EXIF i są to na przykład ustawienia aparatu (producent, model, ogniskowa, obiektyw) czy też miejsce (współrzędne GPS) zrobienia zdjęcia. Jak się to tych danych dostać Pythonem?

#r

Translating Shiny Apps for International Audiences
Kiedy przygotowujesz już swoją aplikację w Shiny i będzie ona np. po angielsku to co zrobisz, żeby udostępnić ją Polakom nie znającym angielskiego? Albo Francuzom?

#spark

How to Apache Spark read column optimization
Jak przyspieszyć czytanie Sparkiem konkretnych kolumn z naszych danych?

#wizualizacja_danych

From dashboard to story
Czy dashboard z ogromną liczbą wykresów jest najlepszym rozwiązaniem? A może małe, dedykowane konkretnemu zagadnieniu, konkretnej historii zestawy będą lepsze?

Creating a Gantt Chart with PowerBI
Wykres Gantta świetnie pokazuje zależności między zadaniami, ale wcale nie jest taki prosty w przygotowaniu. Tutaj znajdziesz tutorial z wykorzystaniem PowerBI

How to create a Sankey plot in R?
Diagramy pokazujące wszelakie przepływy może nie są bardzo dokładne, ale przemawiają do wyobraźni. Jednym z typów jest diagram Sankey’a, a ten tekst mówi o tym jak go przygotować w R

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)