Newsletter Dane i Analizy, 2022-09-05

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Pod logiem Fundacji Apache aż roi się od projektów, a świat big data to pewnie w 90-95% Apache COŚ. Znamy Kafkę, znamy Apache Spark, Apache Hadoop. Dzisiaj przedstawiamy (w dziale BigData) kilkoro innych członków rodziny.

Jeśli zaś mamy dużo mapek do wyświetlenia naszym klientom na stronie (bo na przykład monitorujemy każdy wypożyczony rower, hulajnogę czy samochód i mamy miliony wejść na stronę dziennie) to w dziale DevOps coś o rozwiązaniu open soruce, które może zmniejszyć nasze koszty.

Koszty naprawy maszyn w fabrykach może zmniejszyć podejście do przeglądów – nie „raz na kwartał” a „wtedy kiedy zajdzie potrzeba”. Szczególnie kiedy czasie rzeczywistym wiemy, że „zaszła potrzeba”. Czy w ogóle można budować nowoczesny przemysł inaczej?

Mamy też coś dla kierowników i dyrektorów, szczególnie pracujących w zespołach zajmujących się danymi i ogólnie mówiąc ich przetwarzaniem.

#AI_ML

Twitter Sentiment Analysis Using LSTM
Jak użyć sieci typu LSTM (Long Short-Term Memory) do analizy wydźwięku (pozytywny czy negatywny) tekstów? Zwarty tutorial dający solidne podstawy

#analiza_danych_projekty

Web video streaming ML pipeline with WebRTC, Flask, Kafka, MLflow, MongoDB
Pracując nad modelami często łatwo przeoczyć cały proces i całą zaangażowaną infrastrukturę. Tutaj mamy ciekawy przykład projektu opartego na czytaniu przez frontend obrazu z web-kamery, przesyłaniu go dalej do backendu, transformacji i przejściu przez model ML, a na koniec jeszcze storage w bazie

#architektura

Event Driven Architecture — 5 Pitfalls to Avoid
Event Sourcing to świetna koncepcja, ale można wpaść w pewne pułapki. Jakie i jak ich uniknąć?

#big_data

Data Flow With NiFi
Czyli o zapisywaniu danych do MySQL, MongoDB i wrzucaniu na Slack przez NiFi

Using Apache Flink with Java
W tym artykule zobaczysz podstawowe koncepcje i standardowe przekształcenia danych dostępne w API Apache Flink

Understand Apache Drill and its Working
Tutaj zaś przedstawiamy krótko Apache Drill i jego silnik zapytań

Understanding Data Visualization using Apache Superset
Apache Superset wyróżnia się na tle swoich odpowiedników do prezentowania danych. Tak, rodzina Apache ma narzędzie do wizualizacji danych

Apache Iceberg: A Primer
Iceberg to otwarty format tabeli dla ogromnych zestawów danych analitycznych. Tak, to też kolejny członek rodziny Apache

#ciekawostki

Kafka for Condition Monitoring and Predictive Maintenance in Industrial IoT
Przemysłowe (w sensie że w fabryce) zastosowanie Apache Kafka i IoT – aby monitorować maszyny real-time i odpowiednio wcześnie reagować. Nie przeglądy „raz na kwartał” a „wtedy kiedy zajdzie potrzeba”, przy czym w czasie rzeczywistym wiemy, że „zaszła potrzeba”. Czy można budować nowoczesny przemysł inaczej?

Continuous Deployment of ML Models to the Edge
Przykład z życia: Monitorowanie bezpieczeństwa w miejscu pracy. Trochę blisko tych fabryk i monitorowania urządzeń, prawda?

#devops

How to deploy an OSM tile server
Własny serwer z mapkami? To może być opłacalna inwestycja jeśli wyświetlasz dużo map (np. w ogłoszeniach z nieruchomościami, stacjami wypożyczania rowerów albo sieć sklepów), szczególnie że „podkłady mapowe” z Google Maps albo Mapbox kosztują

#management

Którym typem “Head of Data” jesteś?
Nie jest to quiz który da odpowiedź na tak postawione pytanie, ale przegląd zadań i ról w jakich tytułowy „Head of Data” znajduje się lub może się znaleźć. Dla kierowników i dyrektorów ;-)

Key Takeaways from Gartner Data & Analytics Summit 2022
Rozszerzona analiza, dane syntetyczne, zarządzanie adaptacyjne i nie tylko – nowe buzz-words na 2022/2023? Na pewno podsumowanie konferencji „Gartner Data & Analytics Summit” której motto przewodnie brzmiało: „Uwolnij innowacje i przekształć niepewność”

#programowanie_ogólnie

Projektowanie REST API
Projektowanie REST API wymaga skupienia się na wielu różnych aspektach. W tym artykule dowiesz się jakie wymagania spełnia dobre API

#python

How to Find Dates in PDFs?
Rozpoznawanie nazwanych jednostek (Named Entity Recognition) znane z NLP jako metoda do wyłuskiwania dat zawartych w tekstach zapisanych w plikach PDF. Mamy zatem tutaj czytanie PDFów oraz proste zastosowanie NLP

#ux

Designing Better Error Messages UX
Informowanie użytkownika o potencjalnych błędach wydaje się sprawą prostą, jednak zrobienie tego w sposób niewprowadzający zamieszania, a do tego prowadzący użytkownika za rękę do rozwiązania jego problemu nie jest już takie łatwe. Świetny (ale i długi – jak to w Smashing Magazine) artykuł na ten temat. Mnóstwo przykładów

#wizualizacja_danych

Animate your Graphs
Animowane wykresy (gdzie widać zmianę czegoś w czasie, na kolejnych klatkach animacji) potrafią robić wrażenie. Tutaj znajdziesz sposób na przygotowanie ich w Pythonie. Osobiście użyłbym jednak ffmpeg do złączenia wygenerowanych wcześniej klatek

#środowisko_pracy

JSON Crack
Istnieje wiele metod na efektywne przeglądanie tego, co siedzi w plikach JSON. Jednak za pomocą tego narzędzia otrzymujemy najbardziej przyjazną (dla człowieka) prezentację zawartych w JSONie danych. Efektem działania aplikacji jest coś przypominającego z wyglądu mapę myśli

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)