Python

Pipeline w SciKit Learn

Co to są pipelines w sci-kit learn i jak je wykorzystać? Czyli bardziej efektywne szukanie najlepszego modelu.

Dowiedz się więcej »Pipeline w SciKit Learn

Które API szybsze – w Pythonie czy w R?

Wiele razy czytałem opinie, że Python jest szybszy a R nie nadaje się na produkcję. Ale to opinie nie potwierdzone badaniami. Tutaj pierwsze badania na ten temat!

Dowiedz się więcej »

(py)Spark, Hadoop i HDFS – podstawy

Dzisiaj zajmiemy się wykorzystaniem Sparka i Hadoopa do przetwarzania większej ilości danych. Oraz do budowania prostego modelu (regresji liniowej). Może jeszcze nie jest to big data, ale mechanizmy są identyczne jak w przypadku większej liczby danych. Wystarczy tylko tych danych więcej zgromadzić, zbudować większe środowisko (dużo serwerów) i… też będzie działało.

A w dodatku poznamy pakiet faker który pozwoli nam na wygenerowanie sztucznych danych.

Dowiedz się więcej »