Rostoucí objemy dat i jejich zvětšující se heterogenita rozšiřují škálu analytických úloh. Bohužel se oproti minulosti i přes veškerý pokrok zvětšují rozdíly mezi dobrými a špatnými analytickými řešeními. Ta velmi špatná analytická řešení nazýváme datové bažiny (Data Swamp).

Jak vzniká datová bažina?

V původním slova smyslu je bažina území prosycené sladkou vodou pokryté rašelinou a rostlinami. Na poli datové integrace se v přeneseném slova smyslu jedná o nepovedený výsledek implementace Data Warehouse (datového skladu) nebo Data Lake (datového jezera), které se stalo analogicky bažinou díky nesprávnému datovému „proudění“. Datovou bažinou chápeme jakoukoliv datovou platformu či množinu dat z datové platformy. 

Pomyslné datové „bahno“ nelze rozumně analyticky využít, anebo má dokonce výsledná analytika oproti očekávání negativní dopady na celou organizaci. Tyto problémy s kvalitou datové analytiky nevznikají nikdy náhodně. Jsou důsledkem řady méně či více špatných rozhodnutí bez ohledu na to, o jaký technologický základ se jedná. Může jít například o logické komponenty sklad/jezero nebo třeba servisní modely cloud/on-premise. 

Datová bažina se tudíž neomezuje pouze na datová jezera, se kterými se obvykle spojují díky jejich „neformální architektuře“ zaměřené primárně na surová data. Díky tomuto přístupu mají datová jezera pouze větší tendenci “zbažinatět” než je tomu v případě klasického datové skladu díky výrazně flexibilnějším vlastnostem, které svádí k odkládání systematické údržby řešení, což u datové skladu díky jeho formalizované architektuře vždy nejde.

Na datové bahno s pomocí Data Governance

Je řešením opustit pokročilý koncept Data Lake a vrátit se zpět o několik desetiletí ke starým ale prověřeným datovým skladům? Ne! Ani datový sklad totiž není zárukou, že se nakonec nestane datovou bažinou, navíc ještě s jasným obrysem. Bez ohledu na použitý typ datové platformy je nutné klást mnohem větší důraz na datovou strategii a Data Governance – ta je totiž jediným účinným nástrojem proti datovému bahnu. 

Data Governance musí vždy vycházet z aktuální datové strategie, která definuje využití datových aktiv v souladu se strategií firmy a nelze se spoléhat na nějaké obecné standardy. 

Datová strategie jako dokument obvykle zcela chybí, ačkoliv definuje vztah organizace k jejím datovým aktivům. Jejím obsahem by měly být minimálně definice cílů, soupis souvisejících rizik, principy a koncepce celého data managementu. Na tento definiční dokument by měla navázat Data Governance a definovat exekuční rámec a prostředky pro naplnění této strategie opět v souladu s celkovou strategií organizace.

Data Governance se v praxi nejčastěji bohužel redukuje na pasivní vševědoucí dokument, který zůstává schován na horší časy nebo pro auditora podle toho, kdo nebo co přijde dřív. 

Druhým, o něco méně rozšířeným, ale také špatným pojetím je omezení Data Governance pouze na oblast datové kvality, a to ještě pouze v reaktivní režimu. Obě pojetí jsou nedostačující a nerespektují samotnou podstatu problému.

V době datového boomu prostě nelze používat zastaralé nástroje na nové problémy. Data Governance pojatá správným způsobem nedělá data management složitějším, naopak jej zjednodušuje a zlevňuje. Proaktivně totiž řeší problémy, které se reaktivně řeší již jen vynaložením vysokých nákladů nebo je organizace pro jistotu neřeší vůbec a doufají, že se nic nestane. Kvůli tomu pak dochází k nežádoucímu růstu nákladů nebo poklesu tržeb. 

Bez ucelené Data Governance nelze řídit životní cyklus dat ani životní cyklus celé datové platformy. Každá správně pojatá Data Governance pokrývá datovou architekturu, metadata management, bezpečnost dat, řízení master dat, provoz, datovou integraci, datovou kvalitu a technologie.

Uvízli jste v datové bažině?

Základním pravidlem je se do datové bažiny nedostat vůbec. Co ale dělat, pokud se tak už stane, a jak tomu v ideálním případě předejít? Jak odhalit signály, že se z naší datové platformy stala nebo brzy stane datová bažina? Pro zjednodušení předpokládejme, že máme datovou strategii i nějaký skvělý přizpůsobený framework Data Governance. Nejprve je potřeba si odpovědět na následující otázky:

  • Máme představu, co a jak chceme s daty dělat?
  • Víme, jak a k čemu se data používají?
  • Je časově náročné získat data v požadované struktuře?
  • Víme, jak data vznikají a jaký je jejich význam?
  • Máme ucelenou aktuální dokumentaci datové platformy?
  • Máme metadata popisující datové množiny a datové transformace?
  • Lze data ad-hoc prohledávat a analyzovat?
  • Jsou data propojená, konsolidovaná a kompletní (logicky nebo fyzicky)?
  • Dokážeme určit, které procesy dokáží z našich dat vytvořit hodnotu pro koncové uživatele nebo zákazníky?
  • Jsou naše data dostatečně kvalitní?

Odpověděli jste si u konkrétní datové platformy na většinu otázek záporně? Existuje veliká pravděpodobnost, že opravdu máte vlastní nefalšovanou datovou bažinu. Do jaké míry je to ale problém, respektive, jak nákladné bude odstranění datové bažiny, to záleží na její hloubce a šířce a možnostech uvolnit datové toky tak, aby byly smysluplně využitelné. V extrémních případech je vhodnější postavit nové řešení na zelené louce bez předchozích chyb. V obvyklých případech postačují dílčí úpravy, které do datové platformy implementují nástroje a procesy Data Governance.

Vysvoboďte se

Jak konkrétně postupovat v případě „vysušení“ datové bažiny?

1. Definujte a popište datové množiny

Nejprve definujte a popište datové množiny včetně jejich účelu a obsahu. Definice obsahu včetně odpovídajících metadat umožňuje smysluplné využití dat jako takových koncovými uživateli. Není uměním, budete-li sbírat tisíce položek ke každému obchodnímu případu, mnohem efektivnější je vybírat jen ty, které jsou opravdu potřebné a užitečné. Toto doporučení sice do jisté míry popírá koncepci datových jezer, ale výrazně usnadňuje „vysoušení“ vaší bažiny.

2. Stanovte vlastníky dat

Pouze vlastníci dat jsou schopni říct, jak mají data vypadat a jakou mají mít kvalitu, aby vůbec mohla být použita pro další zpracování jako jsou analýzy, reporty a jiné. Tento problém se často v praxi bagatelizuje přenesením odpovědnosti za data na IT oddělení, které zpravidla však nemá odpovídající odbornost. Je nutné vyřešit i otázku zabezpečení dat, které opět může definovat pouze jejich vlastník. Bez jasné odpovědnosti se každá platforma stane dřív nebo později datovou bažinou a je úplně jedno, jestli je to flexibilní Data Lake nebo rigidní Data Warehouse.

3. Definujte bezpečnostní model včetně přístupových práv k datům

Definovaný bezpečnostní model umožňuje zpřístupnění datových aktiv. Data by měla být tak snadno tříditelná a analyzovatelná. Nesmíme zapomenout ani na technologickou stránku věci, která má velký vliv na efektivitu odbahnění. Cílem by měla být maximální automatizace, a to nejen v oblasti zpracování, ale i oblastech tzv. pokročilé analytiky jako je zpracování přirozeného jazyka, Cognitive Intelligence a Machine Learning. Tyto technologie umožňují předzpracování datových analýz a velmi výrazně zlepšují a zrychlují analytiku koncových uživatelů. Bez této nadstavby nelze dlouhodobě zajistit správné využití dat uložených v datové platformě.

4. …nebo se obraťte na specializované firmy

Není žádnou ostudou se při vysoušení datových bažin obrátit na odborníky ze specializovaných firem, které mají se zpracováním datového bahna bohaté zkušenosti a v mnoha případech mohou datovou platformu úplně zachránit. Po vyčištění je nutné věnovat maximální pozornost údržbě a dodržování všech pravidel, aby se bažina nevrátila. Vynaložené úsilí a náklady se ve srovnání s novým vysoušením bohatě vyplatí.

Podnikejte na základě kvalitních dat, ne s datovým bahnem

Každá datová bažina má nějakou únikovou cestu, jen je otázkou – jakou. Někdy to možná znamená vynaložení vyšších nákladů, výsledkem je ale daty skutečně optimalizované podnikaní generující dlouhodobě vyšší zisky než systém založený na samospádu. Kvalitní data jsou tím největším bohatstvím organizací. Ostatně to jste už asi slyšeli mnohokrát. Samozřejmě to platí, ale nelze je spravovat a používat bez efektivně fungujících datových platforem. A ty nesmí ani náznakem připomínat datové bažiny, ve kterých se člověk nebo organizace buď ztratí nebo v horším případě přímo utopí.

 

Autor: Martin Bém, Senior Consultant, Adastra

Článek v původním znění publikoval server System Online (11. 10. 2018)