Současná doba čelí obrovské expanzi datových základen. Nejnovější průzkumy dokonce uvádí, že 90 % všech dat, které dosud lidstvo ve své historii vyprodukovalo, vzniklo v pouhých dvou posledních letech. Až 88 % nových dat však zůstává dále nevyužito a procento se stále zvyšuje. Dokáže Data Lake odvrátit hrozící datovou temnotu? Nahradí datové sklady, nebo lze docílit jejich vzájemné synergie? Jak zajistit, aby se z datového jezera nakonec nestala datová bažina?

Právě tyto otázky byly předmětem letošního již druhého setkání Adastra DW klubu pořádaného v pražském hotelu Grandior, které tentokrát představilo objevující se trend v oblasti datové správy – Data Lake. Akce přilákala téměř 60 zájemců o odbornou problematiku především z řad profesionálů na Information Management, Data Warehousing a Business Intelligence, a tak nebyla ani v prostoru pro diskuzi nouze o podnětné příspěvky a otázky účastníků.

Proč vůbec zvažovat implementaci Data Lake?

Uvádí se, že objem dat uložených v rámci relational database management systémů (RDBMS) roste za poslední dobu meziročně v průměru o 20 % a mimo něj i více než o 40 %. Studie společnosti IBM navíc hovoří o tom, že pouhých 12 % dat, která nově přibývají do celkového objemu, je skutečně analyzováno. Modernizace datových platforem je tudíž nevyhnutelná. Vedle technologických inovací je navíc potřeba provádět také architektonické inovace, například právě v podobě vytváření datových jezer jako jednoho z dostupných řešení. „Motivátory pro vznik Data Lakes, které provází modernizaci datových platforem, představují ve skutečnosti dva trendy: snaha o maximální konsolidaci a snaha o maximální liberalizaci samotných dat, tak aby analytika byla všem stále dostupná,“ uvádí Martin Bém, Senior Consultant Adastry, který zahájil setkání teoretickým představením problematiky, jež se do odborného povědomí dostala před šesti lety a až nyní se postupně etabluje v praxi. Zároveň upřesnil, že Data Lake především představuje koncept, nikoliv samotnou technologii, ačkoliv s ní poměrně úzce souvisí. Jde v zásadě o masivní a obecně snadno dostupné datové úložiště, které je postaveno na Big Data technologiích a zároveň umožňuje ukládat data v původní podobě pro jejich pozdější využití.

„V dřívějších časech nám postačila strukturovaná data povětšinou ze zdrojových systémů, jako je ERP nebo CRM a další, na jejichž základě aktuálně stojí konkrétní platformy pro datovou integraci a ucelený Data Warehouse. Pokročilejší uživatelé však potřebují také oblast, kde mohou v datech hledat závislosti a obecně s nimi pracovat aktivněji. Současná doba totiž přináší nové výzvy, například v podobě nestrukturovaných dat ze sociálních sítí či Internet of Things (IoT) a dalších, na která klasický Data Warehouse nestačí,“ rozvádí v bližších souvislostech Petr Podbraný, Sales Consultant pro oblasti BI/DWH/DIS ze společnosti Oracle, který v rámci technologického okénka představil řešení společnosti pro budování Data Lake v návaznosti na Big Data.

Nahradí Data Lake datový sklad?

Myšlenku budování datových jezer pro práci s různě strukturovanými daty dále rozvedl Jakub Augustín, Big Data Competency Leader Adastry, který představil vlastní zkušenosti s budováním koncepce Data Lake na projektech Adastry a zároveň společně s účastníky na místě diskutoval, v čem spočívají největší problémy současných DWH/BI řešení, která jsou potažmo také důvodem, proč datová jezera budovat. Dle jeho zkušeností i zkušeností účastníků nespočívá problém ani tak v samotném množství různě strukturovaných dat, dokonce ani tolik v ceně řešení, nebo napojení na jediného vendora, jako spíše v neschopnosti datových skladů nabídnout dostatečně rychlé uvedení na trh od vývoje (time to market) pro nové případy užití (use cases) a zároveň procesy, které jsou napojené na datový sklad, bývají v praxi poměrně komplikované.

Mylnou domněnkou je tudíž představa, že Data Lake všeobecně nahradí datový sklad a ostatní analytické platformy. Ty je naopak datové jezero schopno synergicky doplnit a plnit funkci komponenty – analytické, Data Stage, archivační, nebo infrastrukturní. Data Lake je zároveň oproti klasickému datovému skladu flexibilnějším řešením, které umožňuje na data nahlížet přes vícero pohledů a rozhraní. Nicméně je však nutno uvést, že datová jezera nemohou být instantním řešením správy dat a je potřeba je vybudovat od základu a ukotvit ve stávající architektuře. „Doporučením je propojit oba světy Data Lake i Data Warehouse a nepracovat s nimi odděleně, neboť to většinou skončí tak, že uživatelé následně nejsou schopni data efektivně kombinovat,“ nabízí řešení Petr Podbraný z Oracle.

Tesco operativní reporting a možné využití technologií Hadoop v obchodním řetězci

Případovou studii ze společnosti Tesco představila Zdeňka Limbergová z reportovacího týmu MIS (Management Informational Systems) tohoto nadnárodního maloobchodního řetězce společně s Jaroslavem Tykalem, Senior Consultantem z Adastry, kteří spolupracují na probíhajícím projektu implementace globálního reportovacího řešení. „V našem momentálním výhledu je sjednocování reportingu ze čtyř zemí, kde Tesco působí, tedy přechod na jednu společnou databázi, případně také Hadoop, který nyní testujeme, coby dodatečný výpočetní výkon i levnou storage,“ uvádí stávající plány Zdeňka Limbergová.

Důvodem pro zavedení jednotného reportingu v Tesco (CE Reporting), a tím pádem sjednocení všech čtyř stávajících databází, je především eliminace nedostatků, jenž nynější stav přináší jednak po stránce IT ale i byznysu, který má jinak procesy sjednocené v rámci všech čtyř zemí. Dalším z důvodů jsou také požadavky na pokrytí téměř všech vstupních dat ze všech systémů, na rozdíl od původního stavu, kdy přicházely požadavky primárně na finanční reporting. V neposlední řadě zároveň narůstá počet uživatelů až na úroveň samotných maloobchodních jednotek a jsou vyžadována také data ve větším detailu, čímž se rozhodnutí o integraci databáze doplnilo také o požadavek na zapojení storage a výpočetní kapacity platformou Hadoop.

Závěrem je nutné uvést, že tak, jak datová jezera představují velký potenciál pro využití všech dostupných dat včetně částečně strukturovaných i zcela nestrukturovaných (ve srovnání s klasickým datovým skladem), mohou se stejně dobře změnit v datovou bažinu, která problém s obrovským množství nevyužitých dat ještě více zkomplikuje. Je tudíž nutné jezero udržovat pomocí silné governance, aby nám pod špatnou správou ve finále nezarostlo.

Děkujeme všem hostům za účast i cenné příspěvky do diskuze a budeme se těšit opět na další společné setkání v rámci Adastra DW klubu!