Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
W tym tygodniu sporo materiałów związanych z przygotowywaniem modelu danych w bazie – to istotne zagadnienie, warto się chociaż trochę w temacie orientować jeśli projektujemy coś co ma dane przechować (i potem je przekazać dalej albo przekształcić).
Tak też wyszło, że zebrało się kilka zagadnień związanych z przetwarzaniem tekstu w Pythonie oraz przetwarzaniem (np. poprzez OCR) całych dokumentów.
#AI_ML
ML prediction on streaming data using Kafka Streams
Najsmaczniejsze kąski w przetwarzaniu danych w czasie rzeczywistym są właśnie takie – jest strumień danych, na nim działają jakieś modele machine learningowe i o czymś decydują. Tutaj dowiesz się jak to zbudować w kilku krokach
How to Create a Data Pipeline for Multi-Head Classification with Tensorflow
Mamy obiekty należące jednocześne do dwóch klas (tutaj: dłoń męska lub żeńska, wewnętrzna strona dłoni albo jej grzbiet) – jak ogarnąć taką klasyfikację w TensorFlow?
#analiza_danych_koncepcje
A Unique Way Of Visualising Confusion Matrix
A gdyby tak tablicę pomyłek (tak, „confusion matrix” ma swój polski opowiednik) przedstawić w inny sposób? Intrygujące jest to podejście, daje bardzo fajny czytelny wynik!
#architektura
Spotify System Architecture
Ten artykuł nie tłumaczy zastosowanych rozwiązań technologicznych. Przedstawia za to z jakich elementów składa się cała aplikacja i jakie założenia musi spełniać (np. obsługa 30 języków, trzech jakości nagrań, czy 365 milionów userów)
#bazy_danych
Data Modelling Techniques in Modern Data Warehouse
Modelowanie danych to proces tworzenia modelu danych w celu przechowywania danych w bazie danych lub systemie nowoczesnej hurtowni danych – jakie są na to sposoby?
Basics of Data Modeling and Warehousing for Data Engineers
I jeszcze trochę o przygotowywaniu modelu danych – im więcej spojrzeń tym lepiej
5 Excel Calculations You Should Learn To Perform In SQL
Niech baza danych mieli dane – a nie Excel. Wiele rzeczy można zrobić od razu w zapytaniu. Tutaj kilka przykładów
#big_data
Change Data Capture (CDC)
Chcemy aby dane zmieniające się w bazie wywoływały komunikaty na Kafce o tych zmianach. Są do tego narzędzia, a proces nazywa się właśnie CDC. W tekście znajdziesz opowieść na ten temat
Continuous NLP Pipelines
Piękne połączenie Pythona, Javy i Kafki (razem z Kafka Streams) w celu przetwarzania strumienia danych tekstowych
#ciekawostki
10 rzeczy, których nie powiedzieli Ci o pracy z danymi
Są tajemnice które poznaje się dopiero po jakimś czasie pracy na danym stanowisku. Każde stanowisko takie tajemnice ma. Modny „data scientist” też
#devops
Airflow for Orchestrating REST API Applications
Airflow wywołujący zadania polegające na odpytywaniu (albo innej integracji) z RESTowym API? Żaden problem, a tutaj nawet przepis!
Automated Alerts for Airflow with Slack
Wykorzystanie Slacka do informowania o tym, że DAGi (zadania) w Airflow nie zadziałały
#programowanie_ogólnie
Implement Strategy Pattern in a Purchase Process
Jak działa wzorzec projektowy „Strategy” w realnych zastosowaniach? Na przykładzie procesu płatności
#python
Top Natural Language Processing
Czym to się teraz przetwarza tekst w Pythonie? Jakich bibliotek się używa?
Document Parsing with Python & OCR
Czytamy dokumenty (z obrazkami, tabelkami, wykresami) maszynowo i je analizujemy. Też maszynowo
OCR with Python
Tutaj też czytamy tekst w Pythonie z obrazków :)
Parallel Processing Large File
Jak szybko przetworzyć duży plik? A przynajmniej szybciej niż na przykład linia za linią? Równolegle. Czyli w praktyce jak? Tutorial
4 Pandas Anti-Patterns to Avoid and How to Fix Them
Rzeczy które robisz z pandą, a nie są dobre. Cztery takie rzeczy
#wizualizacja_danych
Data in Wonderland
Obszerny materiał (kilka dni czytania) o wizualizacji danych i różnych podejściach
Financial Trading
Dla inspiracji – kilka czytelnych dashboardów
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)