Newsletter Dane i Analizy, 2022-10-17

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Od ostatniego numeru newslettera przybyło Was trochę – dziękuję za zaufanie i pozostawienie swojego adresu mailowego w nadziei na interesujące materiały. Wiem, że oczekujecie czegoś związanego z Pythonem i przetwarzaniem większej ilości danych, a tym bardziej wiem że dobrze dzisiaj trafiliście.

Mamy zatem trochę materiału pozwalającego przeskoczyć z poziomu junior do mid w Pythonie. Dla tych bardziej zaawansowanych trochę o łączeniu się ze Snowflake z poziomu Pythona (nie tylko dla zainteresowanych Snowflake’em te teksty są warte chociażby przejrzenia – dużo w nich wartości między wierszami, czy też liniami kodu).

Jak wiadomo big data to nie tylko przechowywanie danych i operacje na nich, ale też ich przesyłanie – w tej kategorii mamy rzeczy około Kafkowe.

No a dla osób zainteresowanych uczeniem maszynowym czy sztuczną inteligencją polecam kilka pierwszych artykułów z poniższej listy – od konkretnych przepisów dla fanów XGBoosts, przez wprowadzenie do sieci syjamskich na opisie zaawansowanych modeli do analizy tekstu w spaCy.

Mam też dla Was coś specjalnego, szczególnie jeśli potrzebujesz uporządkować swoją wiedzę z okolicy analizy danych i uczenia maszynowego. Otóż daję 15% zniżki na Karty Data Science.

Jak to się mówi – dla każdego coś miłego. Mam nadzieję. Jeśli zaś spodobało się to liczę, że zostaniesz na dłużej. Zapraszam też na fan page (tam często rzeczy, których nie ma w newsletterze) oraz do archiwum na blogu.

#AI_ML

Using Sparse Matrices in XGBoost
Macierz rzadka to taki twór co to jest macierzą a zajmuje mniej miejsca (zera w niej nie istnieją). Ale przy budowaniu modeli często potrzebna jest pełna forma

How To Create a Siamese Network With Keras to Compare Images
Sieci syjamskie – co to za typ sieci neuronowych, na czym polega i jak go w prosty sposób zbudować?

End-to-end Neural Coreference Resolution in spaCy · Explosion
Rozdzielczość współreferencyjna to problem rozwiązywania jednostek w tekstach na odniesienia, takie jak zaimki. Nawet jeśli nigdy o tym nie słyszałeś, jest to coś, co wszyscy nieustannie robimy każdego dnia i jest kluczem do zrozumienia języka naturalnego. Niedawno do spaCy dodano eksperymentalną implementację kompleksowego komponentu neuronowego rdzenia. Ten post szczegółowo (i w dość łatwy sposób) wyjaśnia architekturę naszego modelu (oraz co to jest ta rozdzielczość współreferencyjna)

#analiza_danych_koncepcje

A Complete SHAP Tutorial
Jak wyjaśnić działanie dowolnego modelu ML?

#bazy_danych

Optimizing massive MongoDB inserts, load 50 million records faster by 33%!
Jak wtłoczyć do MongoDB olbrzymie ilości danych szybko? Przykłady w JavaScript, ale metoda powinna być też do zastosowania w innych językach

#ciekawostki

How I Made a Self-Quoting Tweet
Artykuł wyjaśnia metody (a nawet kilka różnych), które próbowano wykorzystać do stworzenia samolinkującego się Tweeta. Z tekstu można dowiedzieć się trochę na temat tego, jak (dziwnie) działa Twitter

#kafka

A better message queue than Kafka?
Czy PostgreSQL może być lepszą kolejką komunikatów niż Kafka?

#programowanie_ogólnie

Turn around your Git mistakes in 17 ways
Każdemu przytrafiają się pomyłki, ale jak sobie z nimi radzić w systemie kontroli wersji? Autor podaje rozwiązania 17 popularnych problemów. Użyteczne zwłaszcza dla początkujących developerów

#python

E-Ink Magic Calendar
Jak wykorzystać ekran typu e-ink oraz Raspberry Pi do wyświetlania zawartości kalendarza Google? Projekt jak projekt, ale w tym repozytorium znajdziecie pełny kod w Pythonie, w tym czytanie informacji z kalendarza oraz ich prezentację (poprzez screen shot z przeglądarki uruchomionej przez Selenium i wyświetlającej wygenerowanego HTMLa). Dodatkowo Malina uruchamiana jest tylko na chwilę, żeby nie tracić prądu!

20 Newbie Mistakes that Even Skilled Python Programmers Make
Nawet doświadczeni programiści postępują czasem na około. Tutaj znajdziesz 20 sposobów na bardziej eleganckie rozwiązania powtarzających się problemów w programowaniu

#snowflake

Getting Started with Snowpark for Python and Streamlit
Pewnie część z Was wie co to Spark. Dla nich porównanie Snowpark do Sparka wydaje się sensowne. A dla tych którzy nie wiedzą albo chcą się nauczyć wykorzystywać Snowflake’a z poziomu Pythona to będzie dobre wprowadzenie.

How To Connect To A Snowflake Database With Python
SQLAlchemy to popularny pakiet Pythona do łączenia się z różnymi bazami danych. Można go również wykorzystać do podpięcia się do danych znajdujących się w Snowflake’u. Tekst jest świetnym uzupełnieniem powyższego

Streaming Use Cases for Snowflake with Kafka
Skoro można połączyć Sparka z Kafką (odpowiedni tutorial znajdziesz niżej) to można też połączyć z nią Snowflake’a

#spark

Integrate Kafka with PySpark
Czytanie z Kafki oraz pisanie na nią przy pomocy Sparka – tutorial

Beginner’s Guide to Machine Learning with Big Data
Tutorial pokazujący jak pracować z dużymi zestawami danych przy użyciu Google Cloud oraz bibliotek ML-owych ze Sparka

#wizualizacja_danych

9 Visualizations to show Proportions or Percentages instead of a Pie chart
Wykresy kołowe są złe – to jedno z podstawowych praw wizualizacji danych. Dlaczego? Chociażby dlatego, że mózg nie jest w stanie poprawnie określić proporcji wycinków (a jeszcze jak to jest pie chart 3D to już masakra). Tutaj znajdziecie 9 innych sposobów na pokazanie proporcji, chociaż są też wykresy kołowe…

D3Blocks: The Python Library to Create Interactive and Standalone D3js Charts
D3.js to biblioteka do przygotowywania interaktywnych wykresów. Tutaj o opakowaniu jej w Pythona

Pacific island choropleth map
Komu mapka z podpisami?

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)