Časopis: Moderní Řízení 10/2010
Autor: Roman Tobišek, Adastra
Klíčová slova: Kvalita dat, MDM - Master Data Management
Nejdůležitějším podkladem pro správné rozhodnutí jsou správné informace ve správný čas. V našem světě jsou správné informace obvykle zajišťovány prostřednictvím informačních technologií.
Klíčovým vstupem procesu tvorby informací jsou data
Jde o data o zákaznících, produktech, lokalitách apod. přičemž přirozenou potřebou uživatelů správných informací je kvalita dat. Kvalita dostatečná na to, aby výsledná informace byla spolehlivá a důvěryhodná pro rozhodnutí, k němuž je podkladem.
Představme si marketingového ředitele, který má rozhodnout o způsobu provedení marketingové kampaně. Klíčovou informací pro něj bude počet klientů v jednotlivých segmentech či regionech. Na základě těchto údajů rozhodne, zda se vyplatí klienty oslovovat plošně, nebo s využitím přímého oslovení formou vhodného distribučního kanálu. Jak spolehlivé bude jeho rozhodnutí, pokud je v klientském systému vyplněno pouze 60 % adres a navíc jsou data o některých klientech evidována duplicitně?
V některých oblastech je kvalita dat natolik zásadní, že je dokonce vynucována zákonem.
Máme na mysli především státní správu, která vede klíčové evidence a registry. Ať se již jedná o evidenci obyvatel, daňových poplatníků nebo chovatelů motýlů, vždy musí být zajištěna jednoznačná identifikace daného subjektu. Evidence vedené státní správou jsou závazné pro všechny orgány státní správy a s jistou mírou nadsázky lze tvrdit, že kdo není v evidenci státní správy, jako by ani neexistoval. Proto je kvalita dat v informačních systémech státní správy přímo stanovena zákonem.
Jak na kvalitu dat?
Bez kvalitních dat nelze spolehlivě rozhodovat, podobně jako nelze vařit bez soli. Když v oné známé pohádce sůl došla, král si vypomohl bezednou slánkou. Takový komfort k dispozici nemáme, proto musíme kvalitu dat zajistit jinými prostředky.
Pokud zajišťujeme kvalitu dat v samostatném systému, jehož vstupy máme plně pod kontrolou, je to docela snadné. Na počátku našeho snažení by mělo být poznání, jaký je objektivní stav kvality dat. Toho lze dosáhnout např. provedením jednoduchého auditu datové kvality, který ověří základní kvalitativní charakteristiky dat v systému (přesnost, úplnost, konzistence, platnost apod.). Na základě výstupů z auditu je možné provést nápravu nepořádku. Obvykle bojujeme na dvou frontách – v aplikacích a v procesech.
Prevence
V oblasti aplikací je třeba zajistit, aby se zjištěné prohřešky a nedostatky již nemohly opakovat.Proto je nutné doplnit do vstupních rozhraní (tzn. do webových formulářů nebo obrazovek aplikace) příslušné kontroly, které zajistí, aby se do systému dostala jen data splňující definované požadavky. Takto lze např. vynutit zápis telefonního čísla nebo adresy standardizovaným způsobem. Vybrané údaje je vhodné přímo porovnávat s jednotným číselníkem (např. číselník států, měst, titulů apod.). Je třeba také určit, které údaje opravdu musí být vyplněné (rodné číslo) a kde se jedná o čistě dobrovolnou položku (jméno oblíbeného herce). Povinné a nepovinné údaje musí být řešeny na úrovni systému, nelze se spoléhat na pečlivost uživatelů.
Z praxe známe případy, kdy běžný provoz odhalí nedostatky v systému, které uživatelé řeší kreativně po svém, bohužel vždy každý jinak. Jedná se většinou o zapsání informace, pro kterou v systému není kolonka. Ve jméně klienta se tak můžeme dočíst, že byl vymazán, v telefonním čísle je pro změnu uvedena důležitá informace „volat po 16:00“. Obsluze rozhodně nelze vyčítat, že uvádí do systému důležité informace, je však třeba uzpůsobit systém tak, aby vyhovoval potřebám celé organizace i jednotlivých uživatelů.
Reálný provoz občas přináší nečekané situace a každý správný systém by se jim měl co nejdříve přizpůsobit. V oblasti procesů je třeba zajistit, aby byly zjištěné neshody v datech podchyceny metodicky. Musí být zabezpečeno, aby postupy vedoucí k zápisu nebo změně údajů v systému byly jednoznačně popsány a nebyl možný nejednoznačný výklad. Pokud jednotlivé položky v systému umožňují volný zápis obsluhy (např. textové pole), musí být jasně řečeno, jakými pravidly se zápis řídí. Je-li v systému např. volné pole pro zápis adresy (což mimochodem není příliš koncepční řešení), měl by pro zápis adresy existovat standard, aby byly všechny adresy zapisovány stejným způsobem. Obvykle se takováto doporučení a konvence umísťují do manuálů a příruček, někdy též do podnikových směrnic či politik.
Resty minulosti
Pokud se nám podaří upravit systémy a procesy tak, aby již nedovolovaly vznik nových nečistot, máme napůl vyhráno. Zbývá ještě vyčistit nepořádek, který již v systému existuje. I zde je k dispozici několik variant řešení. Můžeme stav prostě ignorovat. To lze pouze v případě, že v datech nebyly zjištěny zásadní problémy, které by snižovaly jejich použitelnost. Vždy je třeba mít na zřeteli, že náklady na nápravu nesmí převýšit přínosy, kterých nápravou dosáhneme. Nemá tedy smysl hnát se za perfektními daty, pokud nám vyhovuje průměrná kvalita.
Další možností je jednorázové vyčištění dat:
Podle povahy systému a zejména v závislosti na objemu a rozsahu dat je možné provést manuální, nebo automatizované vyčištění. Manuální korektury lze provádět u méně rozsáhlých databází s řádově stovkami až tisíci záznamů. Je třeba si však uvědomit, že manuální opravy budou provádět opět chybující lidé, většinou navíc méně kvalifikovaní brigádníci s nízkou hodinovou sazbou a vysokou chybovostí.
Pro automatizované čištění se používá specializovaný nástroj datové kvality, jehož cena není zanedbatelná. V praxi obvykle postupujeme tak, že se provede jednorázové automatizované vyčištění dat a licence pro použití nástroje je pouze zapůjčena za zlomek její celkové ceny.
Trvalá implementace takového nástroje je pak doporučena v prostředí, kde dochází k častým změnám velkého množství dat, případně k jejich migracím mezi systémy. Nástroj datové kvality v takovém případě zajišťuje přípravu dat před vstupem do systému na periodické bázi (obvykle např. pro datový sklad).
Budujeme konsolidovaný registr
Výše uvedené postupy platí v případě, kdy spravujeme samostatný systém a jeho vstupy a výstupy máme plně pod kontrolou. Jak je tomu ale v případě, kdy chceme vybudovat centrální systém konsolidací dat z více jiných systémů?Takovým případem může být datový sklad, který agreguje data z různých primárních systémů a poskytuje analytické výstupy a informace formou reportů koncovým uživatelům – analytikům a manažerům s rozhodovací pravomocí.
V poslední době se často setkáváme také s řešením typu MDM (Master Data Management). Zde se jedná o vytvoření centrálního registru, který obsahuje konsolidovaná master data (jinak též kmenová či referenční) z různých systémů, a poskytuje je jejich konzumentům v reálném čase. Jedná se o federativní systémy, které mohou využívat různé technologické platformy a zároveň mohou být i geograficky členěné.
Nejčastěji se takto řeší centrální klientské databáze, které vznikají konsolidací klientských databází z jednotlivých produktových systémů. Celá organizace pak využívá informace o všech klientech bez ohledu na to, ve kterém systému byl ten který klient zaevidován. V poslední době se dobrým příkladem MDM řešení ve státní správě stává ucelený systém Základních registrů, jehož součástí budou Registr obyvatel, Registr osob a Registr územních jednotek a nemovitostí. Všechny instituce státní správy tak budou moci využívat jednu centrální evidenci všech subjektů, aniž by musely řešit, která instituce daný subjekt vytvořila či povolila.
MDM řešení v sobě skrývají jednu podstatnou překážku, která výrazně znesnadňuje implementaci nápravných mechanismů pro zajištění datové kvality. Data prezentovaná MDM řešením vznikají v jiných systémech a tam jsou i jejich originály. Pokud je tedy zjištěna nějaká vada (např. nesprávná adresa klienta), musí být opravena v autorském systému a teprve následně se propaguje do centrálního MDM řešení. Může to fungovat i opačně – vada se opraví v centrálním registru a následně se propaguje do všech odebírajících systémů včetně toho autorského. Záleží na konkrétní architektuře celého řešení, zda je možné editovat master data přímo v centrálním registru či nikoli. Tento koncept však zavádí i jednu pozitivní změnu – pro vytvoření MDM řešení musí být nadefinovány jednotné standardy. V praxi to tedy znamená, že každá logická entita (např. klient, ve státní správě daňový poplatník nebo jiný subjekt) je popsána jednotným způsobem, který musí akceptovat všechny systémy zapojené do MDM. Během implementace takového řešení jsou vzájemně sladěny definice a standardy jednotlivých atributů a při běžném provozu pak nemůže docházet k tomu, aby byla např. adresa zapisována různým způsobem. Je potřeba si však uvědomit, že implementace MDM řešení je velmi komplexní a náročná záležitost, která s sebou přinese mj. i potřebu četných oprav dat v primárních systémech. V rámci MDM jsou totiž data různých systémů navzájem konfrontována a to může působit problémy, které se dosud v rámci organizace nevyskytly.
Jak zajistit kvalitu dat v registru?
V typické architektuře MDM řešení existují primární autorské systémy, což jsou stávající systémy vytvářející data (např. o produktech, klientech nebo jiných agendách), a dále centrální registr (někdy označovaný jako MDI Hub).
Centrální registr data nevytváří a nemůže je ani měnit, je však ideálním místem na provádění kontrol datové kvality. Zde je možné porovnat kvalitu dat všech autorských systémů, kontrolovat dodržování standardů a definic a vyhodnocovat časové trendy zlepšování (či zhoršování) kvality dat. Zjištěné problémy v datech nebo případné rozpory mezi daty různých systémů pak mohou být reportovány přímo autorským systémům, které zajistí nápravu. Náprava může spočívat např. v přijetí postupů uvedených dříve v tomto článku. Specifickou doménou je opět oblast státní správy, kdy není možné svévolně opravit data v systému, ale je třeba postupovat ve shodě s legislativním procesem, což v krajním případě může vyvolat i soudní řízení (např. změna zápisu v Obchodním rejstříku).
Konec dobrý, všechno dobré
I přes zjevnou složitost a organizační náročnost stále zůstává koncept MDM tím správným krokem pro většinu velkých korporací a institucí státní správy. Společným jmenovatelem je vždy velké množství různých systémů, které mají potřebu sdílet některá data v reálném čase. Tento článek pomohl nahlédnout do postupů, jak uživatelům i v takto komplexním prostředí zajistit kvalitní data, která jsou pro spolehlivé informace tím, čím je sůl pro dobré jídlo.