Hadoop jako platforma pro velká data je fenomén skloňovaný v různých oblastech již několik posledních let. Diskuze se však časem posouvá od ryze akademických úvah směrem k řešení reálných byznys problémů. Technologické aspekty této platformy jsou dnes již dobře definované a stabilní. Komerční distribuce se rychle etablují v enterprise sféře. Na světlo světa proniká množství úspěšných užití napříč spektrem odvětví. Pojďme se proto podívat jak  Hadoop využít v reálném prostředí bank a finančních institucí a proč je právě teď ten správný čas začít.

I přes řadu výhod nebyl Hadoop ještě donedávna technologií pro větší podniky. Hadoop totiž není jedinou technologií, ale ekosystémem drobných částí plnících různé účely. Bouřlivý vývoj v oblasti velkých dat znamená časté změny těchto částí a vyžaduje značné úsilí pro udržení jejich vzájemné kompatibility. Průlomem v možnostech reálného použití Hadoop jsou bezesporu Hadoop distribuce, které zákazníka od integrace částí Hadoopu odstiňuj a zastřešují vše v jeden kompaktní celek. Asi nejznámější zástupci Hadoop distribucí jsou Cloudera a Hortonwors. Tyto distribuce jsou si v zásadě podobné. Out of the box kromě základních pilířů Hadoopu HDFS a MapReduce obsahují množství dalších aplikací.  Pro dotazování mají připraveny dávkové i analytické nástroje. Podporují integraci tokových dat i import dat z SQL databází. Součástí jsou také nástroje pro řízení a design workflow. Všechny komponenty včetně jejich administrace jsou dostupné přes jednotné GUI. Po zakoupení licencí distribuce slibují možnosti HA provozu, vyšší bezpečnosti a provozu velkých clusterů. Distribuce je možné provozovat na vlastním hardwaru, ale k dispozici jsou i hotová appliance řešení, například Oracle pro Clouderu, nebo Teradata pro HortonWorks.  Bez nutnosti licencování pro PoC a s možností využití komoditního hardware je investice do pořízení Hadoop clusteru minimální.

Hadoop distributoři v současnosti ve snaze rozdělení tržních podílů poskytují velice příznivou licenční politiku založenou na ročním obnovování. Také implementátoři a systémový integrátoři jsou ochotni Hadoop řešení a PoC poskytovat za vstřícných podmínek s jasnou vizí velkého rozvoje těchto přístupů v budoucnosti. Tento stav je ideální pro zájemce z řad progresivních podniků usilujících o využití Big Data nástrojů ve svůj prospěch.

Velikou konkurenční výhodou a zároveň ideální úlohou pro Hadoop cluster je implementace 360 view of customer. Dnes běžně používané technologie neumožňují efektivně sledovat všechny prodejní a komunikační kanály. Pobočkové systémy jsou dozajista největším zdrojem prodejních a klientských dat, avšak při dnešní popularitě elektronických komunikačních a prodejních kanálů již zdaleka nejsou jediné. Značné množství cenných informací se skrývá v hlasových datech z call center, v datech ze sociálních sítí, v mailové komunikaci, v datech z bankomatů, v korespondenci s klientem, SMS zprávách, click-stream datech z webových stránek, geolocation datech z mobilních zařízení atd. Jde o data, která jsou tradičními prostředky nesnadno zpracovatelná, nebo astronomická cena zpracování převyšuje hodnotu vytěžených informací. Nejen v těchto případech je ekosystém Hadoopu ideální volbou, protože umožňuje tato data efektivně ukládat a zároveň analyzovat za zlomek ceny oproti konvenčním přístupům . Odměnou je schopnost lépe poznat zákazníka a detailněji sledovat prodejní kanály. Také portfolio produktů a služeb je pak možné lépe řídit a zvyšovat cross-sell i upsell. Analýza těchto dat dále umožňuje predikci chování zákazníka a řešení úloh typu next best offer, micro-targeting, retenci zákazníka a další. Jako příklad lze uvést situaci, kdy zákazník prostřednictvím sociálních sítí naznačuje, že plánuje koupi notebooku. Pokud banka tuto informaci zachytí a jedná se o oslovitelného klienta se známou mírou rizikovlsti, může banka, nabídnout např. navýšení kreditního limitu, peněžní půjčku nebo pojištění.

Ke zlepšení pro-zákaznického přístupu vede i další případ užití vhodný pro Hadoop; sentiment analýza, nebo také opinion mining. Podstatou je zjištění postojů, názorů a pocitů zákazníků, ale také široké veřejnosti ve vztahu k produktům a aktivitám společnosti. Zdrojem dat pro tyto analytické a data miningové úlohy jsou především data ze sociálních sítí, blogů, webových stránek a hlasových dat. Aby bylo možné tato data analyzovat, jsou konvertory zpracovány do textové podoby (např. text-to-speech, twitter-to-json, atd.). Na jejich interpretaci je možno použít další moduly, jako jsou například rétorické moduly se schopností analyzovat tón hlasu zákazníka volajícího na call centrum a umožňující identifikaci typu reakce (spokojen/nes­pokojen), nebo určení konkrétního bodu rozhovoru, který vyvolal změnu nálady volajícího. Na rozdíl od převodníků hlasu do textu, které pro češtinu fungují velice uspokojivě, je u rétorických modulů řada důvodů k pochybnostem. Nicméně i bez těchto pokročilých nástrojů je možné sentiment analýzu v českém prostředí implementovat. Získané informace jsou zdrojem pro hodnocení dopadu kampaní, odhalení důvodů neočekávaně špatných/dobrých prodejů produktů a také pro cílení produktů na demografickou nebo věkovou skupinu a prodejní kanál. Benefitem je také možnost odhalení a včasné mitigace reputačního rizika.

I když předešlé způsoby použití byly založeny na nových a nestrukturovaných datech, existuje řada způsobů využití i pro data strukturovaná. Od momentu, kdy se velikost dat pohybuje ve stovkách gigabajtů až v terabajtech, začíná být použití Hadoopu zajímavé. Například Master data management je u bank a finančních institucích nutností. Mastrování klientských a produktových dat je nicméně náročný proces s ohledem jak na velikost dat, tak i na výpočetní výkon. Výbornou možností optimalizace celého procesu je využití Hadoop clusteru jako platformy. Nízké náklady za uložení dat řeší kapacitní omezení a téměř lineární škálovatelnost výkonu při přidání dalších serverů umožní potřebné zvýšení výpočetního výkonu a zkrácení celého procesu. Podobně jako MDM, také data hub, ale i celý data staging obecně, vyžaduje velké množství strukturovaných dat na jednom místě a je vhodným příkladem pro použití platformy Hadoop. Zde je kromě ceny a kapacity úložiště zajímavým benefitem sandboxing, který je podporován nástroji standardně dodávanými v Hadoop distribucích.

Oblastí vhodnou pro Hadoop je oblast archivace a zálohování dat. K těmto účelům se standardně využívá diskových polí s levným diskovým prostorem či stále ještě magnetických pásek. Magnetické pásky poskytují nízkou cenu za uložení dat. Toto, v dnešní době již zastaralé médium, s sebou nese řadu nevýhod. Data nejsou replikována a poškození úložného média je detekováno až při případné obnově dat. Navíc data uložená na páskách není možné efektivně číst a pro účely analýz jsou neviditelná. Disková pole sice umožňují archivovaná data relativně dobře číst a replikovat, avšak za násobně vyšší ceny než pásková úložiště. Hadoop cluster kombinuje pozitiva obou předchozích přístupů. Poskytuje možnost téměř neomezené archivace při několikanásobné replikaci dat (implicitně 3-násobné), možnosti efektivně dotazovat uložená data a zároveň nízkou cenu uložení dat, která při použití komoditního hardwaru předčí mnohá pásková úložiště a cenou významně atakují prosté levné diskové subsystémy. 

Další zajímavé případy užití zmiňme alespoň heslovitě. Uchování dlouhodobé historie transakcí a hledání vzorců podezřelého chování pro účely odhalování a prevence podvodů nebo ochrana před praním špinavých peněz. Dále pokročilý monitoring IT infrastruktury pomocí analýzy logů a dat ze senzorů.  Tvorba a analýza cenových map nemovitostí a mnohé další.

I přes celou řadu výhod není Hadoop vhodnou platformou pro všechny úlohy. Není zcela vhodný pro úlohy dotazování v reálem čase (existují však proprietární technologie řešící tyto nedostatky (např. Impala či Stinger), i když je schopen near-real time odezvy. Je nevhodný pro transakční úlohy, kde nemůže a ani nechce konkurovat relačním databázím. Aktuální možnosti zabezpečení ho diskvalifikují při práci s velice citlivými daty.

Nízká úvodní investice i provozní náklady, vstřícná licenční politika, případy užití slibující zvýšení konkurenceschop­nosti, to jsou hlavní důvody proč právě teď začít s Hadoop ekosystémem. Dalším driverem bude snaha o vybudování vlastního know-how a zaškolení interních zdrojů, protože počet zkušených a dostupných „Big Data“ specialistů na českém trhu je nízký.