Významný poskytovatel internetu


Nová Big Data platforma zpracovávající desítky miliard dat denně? S Adastrou vybudována za 3 měsíce!

Uřídit síťový a datový provoz významného poskytovatele internetu v ČR není snadný úkol, jeho základem jsou reálná data ukládaná v reálném čase. Přenášené datové objemy jsou obrovské, přesně případ pro využití technologií Big Data. Jak na to, když s nimi nemáte zkušenosti?

Jaký problém jsme řešili

Přesně to si poskytovatel internetu uvědomil a stál tak před velkou výzvou. Vypsal výběrové řízení na řešení pro ukládání velkých objemů metadat o síťovém provozu, v němž kladl vysoký důraz na bezproblémový provoz a vysokou dostupnost nového řešení. Oslovil stávající i nové dodavatele, včetně Adastry, která má v oblasti Big Dat bohaté zkušenosti z celé řady úspěšně realizovaných projektů v různých odvětvích.

3

Za 3 měsíce vybudovala Adastra u zákazníka univerzální, vysoce dostupnou a snadno rozšiřitelnou Big Data platformu.

Jaké řešení jsme zvolili

Adastra přišla s čistě generickou datovou platformou umožňující výborné škálování výpočetního výkonu a snadné rozšiřování diskové kapacity dle budoucích potřeb zákazníka. S ohledem na provozní náklady navrhla menší cluster, který plně vyhovuje současným požadavkům, poskytuje vysoký výpočetní výkon a dostatečné úložné kapacity. Ta se blíží 1 PB (petabytu), zpracovává 300 výpočetních vláken a disponuje 2,5 TB operační paměti a využívá distribuci Hortonworks. Samotné zpracování metadat síťového provozu stojí na Spark frameworku, který využívá stabilní technologie jako Apache Kafka, Apache Hadoop a Apache HBase.

Nová Big Data platforma zpracovává všechna data týkající se internetového provozu zákazníka. Umožňuje flexibilní alokaci prostředků clusteru v závislosti na požadovaném průtoku dat. Reálné průtoky dat se pohybují v desítkách miliard denně. Základní denní agregaci spočítá Spark do 12 minut při alokaci 100 výpočetních vláken.

Součástí řešení je i komponenta třetí strany pro vysoko výkonnostní konverzi síťových metadat ze sond, která byla v rámci PoC (proof-of-concept) u zákazníka úspěšně otestována.

10tky mld

Big Data platforma od Adastry denně zpracuje desítky miliard záznamů.

Jak projekt dopadl

Vlastní instalace a realizace Hadoop platformy trvala 3 měsíce a v jejím rámci probíhal i testovací provoz. Ten Adastra navrhla na „první dobrou,“ takže ho nebylo potřeba významně upravovat a nová Big Data platforma byla spuštěna do ostrého provozu o měsíc dříve.

1

Díky bezproblémovému testování předala Adastra projekt měsíc před smluvně uzavřeným termínem dokončení projektu.

Za klíčové benefity Big Data platformy zákazník považuje:

  • Maximální výkon – meziroční přírůstek objemu dat zákazník vyřeší pouhým přidáním několika dalších jader ve streamové aplikaci v YARNu. Navýšením jader lze dosáhnout průtoku ukládání blížící se 1 milionu záznamů za sekundu. Zákazník tak může velmi pružně reagovat na aktuální potřeby, jak ze strany datového provozu, tak při potřebě výpočetního výkonu pro pokročilé analytiky a zapojení machine learningu.
  • Univerzálnost – dodané řešení není vázáno na konkrétního výrobce hardwaru či typ serveru. Cluster lze doplnit o jakýkoliv typ serveru podle konkrétní dostupnosti i o specializované servery s GPU pro akceleraci machine learning algoritmů.
  • Podpora 24x7 – Adastra zajišťuje podporu při provozu a řešení případných problémů v režimu 24/7.
  • Reporting – Big Data platforma je vynikajícím základem pro návazné aktivity a rozvoj, nad uloženými daty lze efektivně vybudovat kompletní reportingovou vrstvu a informace zpřístupnit a vizualizovat koncovým uživatelům.
600k

Orientační propustnost při kompletním zpracování dat včetně uložení je cca 600 000 záznamů za sekundu při alokaci 80 jader pro aplikaci (cca 28% utilizace prostředků clusteru).

Sdílejte dále:

Zajímá vás podobné řešení? Ozvěte se nám.

Děkujeme

V co nejbližší době se vám ozveme.