Hadoop: Neocenitelný nástroj pro velké objemy dat

Markéta Pastuchová | 29.07.2012 | Software | Žádné komentáře

Velké firmy stále častěji nasazují Hadoop na velké projekty, navzdory možným problémům s ještě poměrně nevyzrálým trhem spojeným s touto technologií. Open source framework Hadoop se totiž pro svoje vlastnosti stává neocenitelným nástrojem v situacích, kdy je potřeba pracovat s velkými objemy dat (tzv. big data) a během krátké chvíle si tak získal v IT světě velkou pozornost. Nyní již dozrál do fáze, kdy lze o jeho podnikovém nasazení s čistým svědomím uvažovat, i když je potřeba důkladně zvážit všechna možná rizika.

Larry Feinsmith, ředitel IT ve finanční společnosti JPMorgan Chase, tvrdí, že jeho firma stále častěji nasazuje Hadoop pro skladování a analýzu dat. Od jeho prvního použití v JPMorgan už uplynuly téměř tři roky a za tu dobu se zde Hadoop více než osvědčil. JPMorgan Chase sice stále závisí na tradičních relačních databázích pro zpracování transakcí, ale neocenitelnost Hadoopu se projevila v takových situacích, jako je detekce podvodů, správa IT rizik či samoobslužná řešení. Pro představu s jakými objemy dat se zde pracuje, JPMorgan Chase má online uloženo 150 petabajtů dat, 30 000 databází a 3,5 miliardy záznamů k uživatelských účtům.

Schopnost Hadoopu skladovat obrovské množství nestrukturovaných dat umožňuje firmě sbírat a skladovat třeba i webové logy, transakční data či informace ze sociálních médií. Feinsmith je přesvědčen, že Hadoop jeho firmě umožňuje skladovat i to, co by předtím nikdy neukládala. Data jsou pak agregována do více rozšířených platforem pro použití v řadě nástrojů pro datovou analýzu a data mining s cílem porozumět chování klientů.

Naopak společnost eBay se rozhodla využít technologii Hadoopu pro vybudování zcela nového search enginu pro svoji aukční síť a podle Hugha Williamse, prezidenta pro vyhledávání a platformy ve společnosti eBay, bude na základě otevřeného kódu Hadoopu vyvinut nový engine s kódovým názvem Cassini. Ten nahradí technologii, kterou firma využívala celé uplynulé desetiletí, ale která měla stále větší problém poradit si s rostoucím objemem dat.

eBay má více než 97 milionů aktivních prodejců a kupujících a více než 200 milionů předmětů k prodeji v 50 000 kategoriích. Každý den jsou pak v průměru zobrazeny na eBay 2 miliardy stránek, je provedeno 250 milionů hledání a s tím souvisí desítky miliardy dotazů na databázi. Společnost má nyní 9 petabajtů dat uložených v clusterech Hadoop a Teradata a objem rychle roste. Nový vyhledávací engine, který by měl být nasazen v příštím roce a jenž je největším vývojovým projektem v historii eBay, má na dotazy uživatelů reagovat mnohem přesněji a zohledňovat i kontext.

Ne vše je ale růžové…

Nicméně Feinsmith varoval firmy, které se o Hadoop zajímají, že agregace a ukládání dat z mnoha zdrojů může přinést řadu problémů v souvislosti s kontrolou přístupu a správou dat a také vzbuzuje otázky ohledně nároku a vlastnictví dat. Přes nasazením Hadoopu na velké projekty je pak potřeba zvážit další možné problémy. Například trh s Hadoopem je zatím stále často matoucí, dochází zde k častým změnám dodavatelů, produktů a standardů. Navíc nedostatkoví jsou i profesionálové, kteří by měli s Hadoopem dostatečné zkušenosti (více viz článek Hadoop proniká do firem, odborníků je nedostatek). Navíc některé další technologie spřízněné s Hadoopem, jako třeba HBase, nejsou ještě dostatečně vyzrálé, což může přinášet problémy se stabilitou systémů.

Nicméně Feinsmith souhlasí s Williamsem, podle kterého není příliš na výběr, pokud firma nechce zvolit proprietární řešení. Otázkou, nad kterou se nyní IT experti přou, je, zda se tradiční systémy relačních databází vyvinou tak, aby dokázaly pokrýt požadavky spojené s velkými objemy dat a nebo je Hadoop v budoucnu zcela nahradí.

Zanechte komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *


devět − šest =

Můžete používat následující HTML značky a atributy: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Copyright © ICT manažer | ISSN 1805-5486 | SEO optimalizace a přizpůsobení SEO-care.cz