Przejdź do treści

Newsletter Dane i Analizy, 2022-06-13

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Jak być data scientistą w Pythonie?

import pandas as pd

i gotowe!

Żart oczywiście (taki familiadowy, ale kto boomerowi zabroni?), a o samym Pandasie polecam wystąpienie Jana Kantego Milczka z PyData w Bydgoszczy.


#AI_ML

Uber’s Real-Time Document Check
Jak Uber zrobił weryfikację na podstawie dokumentów typu dowód osobisty?

Intro to MLOps Using Amazon SageMaker
Co to MLOps i jak SageMaker pomaga? A chyba pomaga, skoro to najpopularniejsze tego typu narzędzie (tak przynajmniej wynika z case studies pokazywanych na konferencjach)

Generating fake satellite images
Sieci GAN i związane z nimi sztuczki w praktyce

#analiza_danych_koncepcje

Meet HistGradientBoostingClassifier
Dzień dobry, to ja – nowy klasyfikator.

Unbalanced Data? Stop Using ROC-AUC and Use AUPRC Instead
Dobra miara sukcesu modeli w przypadku niezbalansowanych zbiorów to…

#analiza_danych_projekty

Build dashboard in Python with automatic updates and email notifications
Zrób jeden dashboard (np. w Pythonie), niech sobie działa. A jak w danych wyjdzie coś niepokojącego niech maila wysyła!

Building A Machine Learning Pipeline Using Pyspark
Preprocessing danych (czyszczenie, uzupełnianie, skalowanie) w PySparku na przykładach. Dość typowe zadania, więc dość przydatne :-)

Big Data in Little Wordle
Pamiętacie jeszcze Wordle? Grę w zgadywanie słów. Było dużo szumy, było pełno artykułów o tym jak najszybciej zgadywać słowa, a tutaj analiza 70 milionów gier

#bazy_danych

Incremental and Full strategies with Apache Airflow and PostgreSQL
Stwórz automat, który będzie pobierał dane ze źródłowej bazy danych i przenosił je do docelowej bez zduplikowanych wierszy i bez aktualizowania wszystkich innych wierszy. Użyj do tego Apache Airflow

#big_data

How to work with ElasticSearch, Python and Flask
Elastic fajny jest, ale jak go wykorzystać inaczej niż poprzez Kibanę? W Pythonie w szczególności?

Distributed Big Data Pipeline Using Kafka and Cassandra
Dwa źródła danych, jeden wspólny zbiór i wizualizacja. W tekście więcej o architekturze niż samego kodu, ale jest podlinkowane repo z producentami i konsumentami kafkowymi oraz notebookami robiącymi wykresy

Google Data Studio on BigQuery usage and cost control
Data Studio to fajny googlowy BI. BigQuery to fajna googlowa baza/hurtownia. Ale używanie narzędzi w chmurze kosztuje. Jak to opanować? Albo chociaż kontrolować?

Beam College May 2022
Szkoła Apache Beam – zapis majowych webinarów. Zaś Apache Beam to project rozpoczęty w 2016 roku, bardzo mocno wspierany przez Google. Jego zadaniem jest stworzenie uniwersalnego modelu przetwarzania Big Data. Raz napisany kod, który przetwarza dane, powinien być możliwy to uruchomienia w technologiach, takich jak Apache Spark czy DataFlow

#ciekawostki

Master Plan for becoming a Software Architect
Zagadnienia i książki które warto przeczytać. Nie tylko po to, aby zostać Software Architectem

Why I Like Using UUIDs on Database Tables
Niezależnie od tego, czy chodzi o bezpieczeństwo, czy o marketing – UUISów powinno się używać

#devops

A beginner’s guide to CI/CD and automation on GitHub
Wiecie, że GitHub ma gotowe mechanizmy do devopsowych rzeczy? Jak zacząć z nich korzystać?

#management

Dlaczego kadra zarządzająca musi dbać o inżynierię danych?
Czy specjaliści od zarządzania bazami danych mogą poprawić funkcjonowanie zespołu inżynierii danych, skoro nasi inżynierowie DevOps pracują nad eksplozją narzędzi danych w skomplikowanych i fragmentarycznych przepływach pracy?

Stop Using Velocity To Measure Your Teams!
Metryki i KPI bez kontekstu są bez sensu. Czy „prędkość spalania” ma sens w Agile i Scrum?

#python_mid

Building a Microservice in Python
Mikroserwisy wszędzie… Flask, wątkowanie, cache’owanie – to znajdziecie w tym tekście

How to Create a Python Script to Automatically Monitor Prices Online
A gdyby tak sobie monitorować ceny na jakiejś stronie i dostawać maila jak się zmieni? Gotowiec (no… prawie i nie zawsze)

Python Await Async Tutorial with Real Examples and Simple Explanations
Programowanie asynchroniczne w Pythonie – na konkretnych, dość życiowych ;-) przykładach

#r

Object-Oriented Programming (OOP) in R with R6
Czy programowanie obiektowe w R ma sens? Jak się za nie zabrać i później wykorzystać zdobytą wiedzę? Bardzo dobre wprowadzenie

Survival Analysis in R
Jakiś czas temu na fanpage’u było o analizie przeżycia. Być może komuś brakowało ładnych wykresów do tego? Dzisiaj więc takie w R wspomaganym ggplot2


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

1 komentarz do “Newsletter Dane i Analizy, 2022-06-13”

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *