Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Dziękuję przede wszystkim za wypełnienie ankiety! Chyba najbardziej za średnią ocen 8.7. Jeśli nie wypełniłaś/wypełniłeś jeszcze ankietki to poszukaj maila z minionej środy i przeklikaj w te trzy minutki kilka pytań. Pomoże w rozwoju newslettera, część uwag już wziąłem sobie do serca.
Dzisiaj szerokie spektrum tematów. Starałem się, aby każdy z tekstów które tutaj trafiły porządnie zgłębiały temat, a nie były zwykłym „baitem”. Mam nadzieję, że udało się wybrać to najsmaczniejsze. Szczerze mówiąc z około 90 potencjalnych kandydatów tylko te przeszły selekcję.
Pamiętacie o rabatach na Karty Data Science? Każdy lubi rabaty, a ja daję bezterminowo 15% zniżki!
Dla przypomnienia: Karty Data Science to zestaw, który pozwoli Ci uporządkować wiedzę z zakresu na przykład przed rozmową rekrutacyjną albo egzaminem. Znam te karty i ręczę, że to kawał dobrej roboty.
#analiza_danych_koncepcje
The Word2vec Classifier
O co chodzi z Word2Vec? Tomas Mikulov wymyślił to w 2013 roku, a ten cykl opowiada o idei algorytmu który pozwala na równania typu „król – mężczyzna + kobieta = królowa”
3 easy hypothesis tests for the mean value
Powiedzmy, że mierzymy coś w rodzaju wysokości Mount Everestu. Wiemy, że to 8848 metrów. Po zmierzeniu otrzymujemy 8840 metrów ze standardowym błędem 20 metrów. Czy nasza średnia wartość różni się statystycznie od znanego wzrostu?
A Comprehensive Guide to training CNNs on TPU
A gdyby tak przyspieszyć trenowanie modeli przygotowanych w TensorFlow? Na przykład używając TPU? Tylko jakt…
An Introduction to Topic-Noise Models
Mechaniczne podsumowanie tekstu to między innymi określanie tematów, o których tekst opowiada. Najczęstsze przykłady pokazują jak znaleźć słowa istotne dla tekstu i tym samym opisujące temat. Tutaj jenak idziemy kawałek dalej
#analiza_danych_projekty
Tracking the War in Ukraine: A Data Engineering Project
Przygotujmy pełny projekt korzystający z PySpark, Airflow i Streamlit. Niech zbiera dane, odkłada je, przetwarza w odpowiedni sposób, a na koniec pokazuje je w dedykowanej aplikacji Streamlit
Summarize a text with Python
Czytanie długich tekstów może być męczące ;-) zatem można użyć uczenia maszynowego do przygotowania podsumowania tekstu i tym samym skrócenia go. Tutaj znajdziecie skrótowy tutorial opisujący taki proces, w oparciu o Pythona i pakiet NLTK
#big_data
Orchestrating Data/ML Workflows at Scale With Netflix Maestro
Maestro – framework od Netflixa pozwalający na zarządzanie potokami danych i procesów ML
Running Apache Hive 3, new features and tips and tricks
Co nowego przynosi Hive 3?
#ciekawostki
Pobierz do Excela dane z obrazu!
W aplikacji mobilnej Excel znaleźć można od jakiegoś czasu wczytywanie tabel ze zdjęcia lub obrazu (skanu). Teraz ta sama funkcjonalność uzupełniła źródła danych na karcie Dane. Jak jej użyć?
#devops
Grafana for GitHub Actions Workflows
Grafana do monitorowania procesu wdrożeń – na przykładzie akcji w GitHubie (pewnie z Bitbucketem i Bamboo też by się dało)
Apache Airflow: deploy DAGs from git
Kiedy już mamy Airflow i cały zestaw DAG-ów możemy zechcieć wdrażać je z Gita. I co wtedy?
Leverage Podman with a Desktop App
Po ostatnich zmianach w licencji aplikacji Docker Desktop, jej legalne użycie w dużych korporacjach może nie być już możliwe bez płacenia za licencję. Co więc robić? Można zmigrować się na Podman Desktop i za jego pomocą zarządzać lokalnymi kontenerami. Aplikacja działa na Windowsie, Linuksie i Macu
Handling secrets in your Ansible playbooks
Co zrobić z hasłami czy tokenami dostępowymi do serwisów kiedy używamy Ansible? Przecież nie zmieścimy ich otwartym tekstem w skryptach…
10 ways AI and ML are accelerating DevOps
Czy ML/AI może przyspieszyć lub poprawić procesy DevOps?
#kafka
Implementing Data Contracts
Słowo o kontraktach między systemami wymieniających dane. Po naszemu: schematy wiadomości i Schema Registry. Do czego się przydaje, dlaczego istotne.
#management
Different Types Of „Data Engineering” Teams
Co robią zespoły „inżynierów danych”?
Translating Tech Talk for Management and Users
Jak z managementem i użytkownikami biznesowymi rozmawiać o projektach dotyczących przetwarzania danych? Jak głęboko wnikać w część techniczną? A może wcale?
#programowanie_ogólnie
Documenting Distributed Systems
Jak opisywać systemy połączone, połączenia i interface’y między mikroserwisami czy też wiele źródeł danych? Przy pewnej skali utrzymanie takiej dokumentacji zaczyna być problemem…
#python
How to set up Logging for Python Projects
Logowanie w nieco większych projektach pythonowych niż jeden plik .py. Tutaj z myślą o projektach ML, ale wprowadzenie do logowania pasuje do wszystkich
Write Your Own Transformer for Scikit-Learn Pipelines
Potoki przetwarzania danych w ramach Scikit-Learn. Czasem potrzebna czegoś własnego (jakiejś warunkowej transformacji zmiennych albo wymyślnego uzupełniacza brakujących danych), innego niż dostępne standardowo w bibliotece. Jak sobie z tym poradzić? Napisać odpowiednią klasę! Jak? Tutaj się tego dowiesz!
What is EXIF Data in Images?
Wiecie, że zdjęcia (ogólnie rzecz biorąc obrazki) mogą mieć zaszyte w plikach metadane oprócz samego obrazu? Te metadane zwykle nazywane są EXIF i są to na przykład ustawienia aparatu (producent, model, ogniskowa, obiektyw) czy też miejsce (współrzędne GPS) zrobienia zdjęcia. Jak się to tych danych dostać Pythonem?
#r
Translating Shiny Apps for International Audiences
Kiedy przygotowujesz już swoją aplikację w Shiny i będzie ona np. po angielsku to co zrobisz, żeby udostępnić ją Polakom nie znającym angielskiego? Albo Francuzom?
#spark
How to Apache Spark read column optimization
Jak przyspieszyć czytanie Sparkiem konkretnych kolumn z naszych danych?
#wizualizacja_danych
From dashboard to story
Czy dashboard z ogromną liczbą wykresów jest najlepszym rozwiązaniem? A może małe, dedykowane konkretnemu zagadnieniu, konkretnej historii zestawy będą lepsze?
Creating a Gantt Chart with PowerBI
Wykres Gantta świetnie pokazuje zależności między zadaniami, ale wcale nie jest taki prosty w przygotowaniu. Tutaj znajdziesz tutorial z wykorzystaniem PowerBI
How to create a Sankey plot in R?
Diagramy pokazujące wszelakie przepływy może nie są bardzo dokładne, ale przemawiają do wyobraźni. Jednym z typów jest diagram Sankey’a, a ten tekst mówi o tym jak go przygotować w R
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)