Školení


Data science workshop

Termín:

22. 1. 2020, 9:00

Trvání:

2 dny

Cena:

21 900 CZK

Cena je bez DPH

Místo konání:

Praha

Vyzkoušejte si pokročilou a prediktivní analytiku v Big Data prostředí

Data Science je disciplínou, která se zaměřuje na porozumění datům. Přesněji poodkrývá, co se skrývá v obrovském množství dat. Jedná se o obor kombinující statistiku, umělou inteligenci, datové inženýrství a byznys analýzu.

Datoví vědci používají při své práci statické metody pokročilé analýzy, techniky strojového učení (machine learning), hloubkové učení (deep learning)  a umělé inteligence (artificial intellegence).

V rámci dvoudenního workshopu se o Data Science dovíte vše podstatné, např. jak v prostředí Big Dat používat známé techniky jako jsou logistická regrese a rozhodovací stromy. vyzkoušíte si modelování náhodných lesů nebo shlukovou analýzu.

Pro koho je workshop určen

Pro všechny, kteří se chtějí dozvědět více a proniknout do problematiky Big Data se zaměřením na Data Science.

  • Analytici
  • Byznys konzultanti
  • Data Scientisti
  • Data Stewardi

O programu

Co se naučíte

  • Co je to Spark
  • Koncept Big Data modelování
  • Nahrávat data různých formátů
  • Základní manipulace s daty
  • Zkoumat a vizualizovat data
  • Transformovat data pomocí funkcí zabudovaných ve Sparku
  • Vytvořit sestavu transformací pro úpravu dat v jednom kroku
  • Použít logistickou regresi jako příklad modelování ve Sparku
  • Prozkoumat výstupy modelu a vybrat ten nejlepší
1. den

Co se naučíte 1. den

Program 1. dne

Představení, agenda

  • Rychlé představení účastníků a seznámení s agendou workshopu
  • Ověření přístupů
  • Distribuce a instalace nástrojů a dat, které budeme v průběhu workshopu používat

Cloudera Data Science Workbench (CDSW)

  • Představení analytického nástroje CDSW
  • Principy práce v CDSW – založení projektu, správa týmu, nastavení jobů a dependencies

Průzkum a vizualizace dat

  • Načtení dat z různých datových zdrojů
  • Základní práce s daty
  • Zjištění popisných statistik jednotlivých proměnných
  • Vizualizace dat pomocí balíčků v Pythonu

Přehled nástrojů ve Sparku určených na transformaci dat

  • Demonstrace algoritmů určených na transformaci proměnných
    • Spojitých
    • Kategorických
    • Textových
  • Ukázka funkcí pro výběr proměnných do modelu a redukci dimenzionality

Tvorba jednotné pipeline pro transformaci dat

  • Skládání jednotlivých transformací do jedné funkce

Trénink modelu a zkoumání výstupů modelu

  • Nastavení parametrů modelu logistické regrese
  • Výběr vyhodnocovacího kritéria
  • Trénink modelu
  • Výběr nejlepšího modelu
  • Zkoumání vlastností modelu
  • Aplikace modelu na testovací data pro zjištění skutečné předpovídací schopnosti modelu

Samostatná práce

  • Za každou z výše zmíněných kapitol bude následovat blok věnovaný samostatné práci, kde si budete moci procvičit získané teoretické znalosti

Co se naučíte

  • Jaké algoritmy pro řešení analytických úloh ve Sparku existují
  • Jak používat jednotlivé techniky pro pokročilou analytiku a machine learning
  • Jak nasadit a aplikovat výsledný model na nově generovaná data
  • Jak vytvořit kompletní distribuovanou Data Science Pipeline
  • Osvojíte si práci s notebookovým nástrojem a jak využít jeho možností pro týmovou práci
2. den

Co se naučíte 2. den

Program 2. dne

Řešení klasifikačních úloh

  • Specifika klasifikačních úloh
  • Přehled technik, které nabízí Spark pro řešení klasifikačních úloh
  • Úlohy zaměřené na klasifikační stromy a náhodné lesy, Multilayer Perceptron
  • Demonstrace použití jednotlivých technik

Řešení regresních úloh

  • Specifika regresních úloh
  • Přehled technik, které nabízí Spark pro řešení regresních úloh
  • Úlohy zaměřené na regresní stromy a náhodné lesy
  • Úlohy zaměřené na gradient boosting a další techniky
  • Demonstrace použití jednotlivých technik

Aplikace modelu na nová data

  • Nasazení modelu na nový datový soubor
  • Posouzení kritérií a vyhodnocení testování

Řešení segmentačních úloh

  • Přehled technik, které nabízí Spark pro řešení segmentačních úloh
  • Demonstrace použití jednotlivých technik

Nasazení modelu na toková data (streaming data)

  • Specifika modelování na tokových datech
  • Jak nasadit vybraný model na nová toková produkční data a exportovat výsledky

Samostatná práce

  • Za každou z výše zmíněných kapitol bude následovat blok věnovaný samostatné práci, kde si budete moci procvičit získané teoretické znalosti

Náš přístup a organizace

PRAKTICKÉ INFORMACE

Organizační informace k workshopu

  • Základní formát je dvoudenní
  • Minimální počet zájemců pro konání workshopu je 5, maximální počet je 10 účastníků
  • Workshop se koná v prostorech spo­lečnosti Adas­tra

Předpokladem jsou znalosti v oblasti:

  • Datové analýzy
  • Programování či SQL
  • Základní zkušenost s Pythonem
  • Základy statistiky

Praktická cvičení

  • Součástí workshopu je sada praktických cvičení, při kterých si nabyté teoretické znalosti prověříte na reálných datech.
  • Budete řešit skutečné byznysové problémy.

Diskuse

  • Interaktivní forma workshopu vám umožní diskutovat o obecných i konkrétních problémech se zkušenými lektory i dalšími účastníky workshopu.
  • Počet účastníků je omezen tak, aby měl každý dostatek prostoru k diskusi a samostatné práci.

Hardware pro praktické ukázky

  • Adastra zajišťuje technické vybavení v podobě Hadoop laboratoře (vlastní cluster) včetně možnosti připojení na přístupový bod (WiFi nebo LAN)
  • Pro praktickou část workshopu je nutný vlastní notebook

Software pro procvičování

  • Adastra je stříbrným partnerem společnosti Clou­dera, světového lídra v distribuci Hadoop technologii.
  • Vyzkoušíte si práci se špičkovým analytickým nástrojem Cloudera Data Science Workbench, který poskytuje přenositelnost kódů do některého z prostředí Python, Scala nebo R.

Školitelé z týmu Data Science

  • Výukou vás budou provázet zkušení lektoři, kteří se s vámi rádi podělí o své know-how a poskytnou vám podporu při řešení samostatných úloh.
  • Kromě teoretických znalostí vás lektoři seznámí i se zkušenostmi z praxe.
  • Zaměří se především na problémy, které se mohou vyskytnout při řešení datových analýz, a vysvětlí, jak je řešit.

Registrace na školení

Děkujeme

V co nejbližší době se vám ozveme.

Dagmar Bínová

Big Data Science Lead

Dagmar Bínová

Oleg Masajlo

Data scientist

Oleg Masajlo

Sdílejte dále: