Big Data jsou v dnešním ICT světě žhavým trendem a představují obrovskou výzvu. Nabízejí však i velkou příležitost ve formě unikátních konkurenčních výhod pro firmy, které se tuto výzvu pokusí zdolat? Nebo jsou jenom dalším buzzwordem? Co vlastně představují a jak je lze použít?

Autor:  Jakub Augustín

Co jsou Big Data

Jak již název tohoto trendu napovídá, jedná se o velká data. Jak velká data ale máme na mysli, pokud je řeč o Big Datech? Na tuto otázku neexistuje univerzálně platná odpověď. Existuje zde však paralela s takzvaným paradoxem hromady (paradox sórites). Tento paradox je založen na myšlence, že máme hromadu písku (třeba milión zrníček) a posupně z ní odebíráme jednotlivá zrníčka. Pokud odebereme jedno zrníčko, stále se jedná o hromadu písku. Pokud odebereme další, také se jedná o hromadu, a tak dále… Pokud však odebereme dostatečně mnoho zrníček (a zůstane nám třeba 100 zrníček písku), pak se již evidentně o hromadu nejedná. Nejsme však schopni říci, že po odebrání konkrétního zrníčka přestala hromada existovat. A přesně tak je to s definicí pojmu Big Data. Existují data, která jsou zcela určitě Big Daty a data, která zcela určitě Big Daty nejsou. Navíc platí, že s technologickým vývojem se tato hranice posouvá. Není proto účelné hledat přesnou velikost, od které již hovoříme o Big Datech. Je však účelné zamýšlet se nad ekonomickými důsledky uložení velkých objemů dat v klasických datových skladech a relačních databázích. Velká většina podniků pak zjistí, že má data, která sice mají určitou hodnotu, ale jsou tak velká, že náklady na jejich uložení nebo zpracování tuto hodnotu převyšují. Proto se podniky rozhodnou je časem mazat, agregovat nebo vůbec neukládat. Kromě velikosti dat (volume) se hovoří také o rychlosti vzniku dat (velocity) a proměnlivé nebo nestrukturované podobě dat (variety). Tyto faktory mohou také způsobit, že náklady na uložení a zpracování dat převýší jejich hodnotu. Na tomto místě se konečně dostáváme k definici (i když ne zcela exaktní) pojmu Big Data. Big Data jsou jakákoliv data, která jsou natolik velká, rychle vznikající nebo proměnlivá, že není rentabilní je ukládat a zpracovávat v běžných nástrojích a úložištích. Právě pro zlevnění a zefektivnění práce s takovými daty dnes existuje několik platforem, z nichž tou bezpochyby nej­známější je Hadoop.

Hadoop

I přes řadu výhod nebyl Hadoop ještě donedávna technologií pro větší podniky. Hadoop totiž není jedinou technologií, ale ekosystémem drobných částí, plnících různé účely. Bouřlivý vývoj v oblasti velkých dat znamená časté změny těchto částí a vyžaduje značné úsilí pro udržení jejich vzájemné kompatibility. Průlomem v možnostech reálného použití Hadoop jsou bezesporu Hadoop distribuce. Hadoop distribuce zákazníka od integrace částí Hadoopu odstiňují a zastřešují vše v jeden kompaktní celek. Asi nejznámější zástupci Hadoop distribucí jsou Cloudera a Hortonworks. Tyto distribuce lze přirovnat k operačnímu systému počítače. Ten sestává z celé řady drobných programů, které dohromady tvoří fungující celek.

Narozdíl od klasických relačních databází a datových skladů je Hadoop založen na myšlence distribuovaného uložení a zpracování dat. Proto je pro provoz Hadoopu zapotřebí několik vzájemně propojených serverů (Hadoop cluster). Data, která jsou uložena v Hadoopu jsou uložena v několika kopiích, přes různé servery v clusteru. Pokud dojde k poškození některé kopie dat, Hadoop zajistí automatické přesunutí na další volný server v clusteru. Totéž platí pro výpočty v clusteru. Jsou prováděny paralelně na několika serverech, a pokud jeden selže, operace se opakuje na jiném. Tato vlastnost umožňuje vytvoření obrovských distribuovaných úložišť s vysokým výpočetním výkonem. Paradoxně, uložení ve vícero kopiích v Hadoopu, může být v mnoha případech levnější, než uložení pouze jednou mimo Hadoop. Důvodem je, že v případě Hadoopu si můžeme dovolit použít sice o něco méně spolehlivý, ale zato podstatně levnější hardware. Platí také, že Hadoop distribuce jsou v porovnání se současnými enterprise řešeními levné. Celkově tak bývá cena za uložení dat až řádově nižší, než u klasických datových skladů a relačních databází. Hadoop distributoři v současnosti ve snaze o rozdělení tržních podílů poskytují velice příznivou licenční politiku, založenou na ročním obnovování. Licence je typicky možné zakoupit dle počtu serverů v clusteru nebo dle konfigurované úložné kapacity clusteru. V případě zmiňovaných distribucí je možné je používat i zdarma bez licencí, což je výhodou zejména při ověření proveditelnosti vybraného řešení. Bez licencí však distributoři neposkytují podporu Hadoop clusteru nebo neumožňují provoz velkých clusterů, případně chybí vysoká dostupnost řešení. Zlevnění datové platformy pro Big Data vede k tomu, že data, která doposud nebylo rentabilní ukládat a zpracovávat, mohou firmě přinést benefit.

Úlohy pro Big Data

Velikou konkurenční výhodou a zároveň ideální úlohou pro Hadoop cluster je implementace 360 view of customer. Dnes běžně používané technologie neumožňují efektivně sledovat všechny prodejní a komunikační kanály. Značné množství cenných informací se skrývá v hlasových datech z call center, v datech ze sociálních sítí, v mailové komunikaci, v korespondenci s klientem, SMS zprávách, click-stream datech z webových stránek, geolocation datech z mobilních zařízení atd. Jde o data, která jsou tradičními prostředky nesnadno zpracovatelná, nebo vysoká cena zpracování převyšuje hodnotu vytěžených informací. Odměnou je schopnost lépe poznat zákazníka a detailněji sledovat prodejní kanály. Také portfolio produktů a služeb je pak možné lépe řídit a zvyšovat cross-sell i up-sell. Analýza těchto dat dále umožňuje predikci chování zákazníka a řešení úloh typu next best offer, micro-targeting, retenci zákazníka a další.

Další potenciální oblastí pro uplatnění Big Data technologií je zpracování tokových dat, která vznikají v podobě logů z hardwarové infrastruktury a aplikací nebo výstupů ze senzorů a čidel různých zařízení, od mobilních telefonů, až po motory letadel či ropní plošiny. Tato data vznikají obrovskou rychlostí a běžně tvoří přírůstky desítek gigabajtů za minutu. Zpracování těchto dat může odhalit určité typické vzorce chování nebo extrémní situace. V praxi se tímto způsobem detekují dopravní zácpy, doporučuje se personalizovaná reklama nebo se detekují a analyzují výpadky IT infrastruktury. Při zpracování těchto dat v reálném čase je dále možné predikovat vývoj do budoucna na základě podobných předchozích pozorování. 

Oblastí vhodnou pro Hadoop je i oblast archivace a zálohování dat. K těmto účelům se standardně využívá diskových polí s levným diskovým prostorem či stále ještě magnetických pásek. Magnetické pásky poskytují nízkou cenu za uložení dat. Toto, v dnešní době již zastaralé médium, s sebou nese řadu nevýhod. Data nejsou replikována a poškození úložného média je detekováno až při případné obnově dat. Navíc data uložená na páskách není možné efektivně číst a pro účely analýz jsou neviditelná. Disková pole sice umožňují archivovaná data relativně dobře číst a replikovat, avšak za násobně vyšší ceny než pásková úložiště. Hadoop cluster kombinuje pozitiva obou předchozích přístupů. Poskytuje možnost téměř neomezené archivace při několikanásobné replikaci dat, možnosti efektivně dotazovat uložená data a zároveň nízkou cenu uložení dat, která při použití komoditního hardwaru předčí mnohá pásková úložiště a cenou významně atakují prosté levné diskové subsystémy.

I přes četné výhody na poli velkých dat není Hadoop vhodným řešením pro menší datové objemy. Relativně nízká cena za uložení dat se projeví až při dostatečně velkých kapacitách. Jak také vyplývá z běžných případů užití, v současnosti Hadoop a Big Data nepředstavují alternativu vůči běžným datovým skladům. Představují samostatnou oblast, která se s datovými sklady částečně překrývá. Není účelné nahrazovat stávající řešení, pokud uspokojivě fungují. Po Big Datech má význam sáhnout, pokud již stávající řešení přestávají efektivně plnit svůj účel, nebo pokud se jedná o velká, rychlá či rozmanitá data, která nelze v současnosti efektivně zpracovat.

Lidský faktor

Zřejmě největším omezením Big Data nástrojů je v současnosti nedostatek know-how a zkušených odborníků. To je zapříčiněno tím, že trend Big Data je záležitostí několika posledních let a český Big Data trh je v počátcích. Big Data technologie vyžadují specifické know-how, které není zcela přenositelné z jiných IT oblastí. Množství úloh v oblasti Big Data využívá datovou analýzu a statistické metody, případně data mining.  Zcela novou rolí, která se v této oblasti profiluje je „data scientist“. Jedná se o člověka, který by měl být schopen analyzovat velké datové objemy, měl by být schopen používat statistické/ma­tematické metody a také výsledky vizualizovat. Zároveň však musí být schopen porozumět byznys problematice a vědět, co konkrétně v datech hledá. Jedná se o roli na pomezí statistika, analytika a vývojáře. Lze očekávat, že zájem o tyto unikátní znalosti bude časem jenom narůstat a v následujících několika letech zde bude na trhu permanentní nedostatek takových odborníků. Pro firmy, uvažující o implementaci Big Data projektů, by mělo být klíčové snažit se najmout volné lidi se znalostí v daném oboru, nebo je začít postupně interně vychovávat.