Hadoop: Osm alternativ, jak nahradit filesystem HDFS

Martin Noska | 20.08.2012 | Software | Žádné komentáře

Open source řešení Hadoop se během velmi krátké doby stalo prakticky synonymem nástroje pro práci s velkými objemy dat (big data). I když poměrně rychle vyzrálo a je již ve velkém měřítku nasazováno v produkčních systémech, stále má několik slabin. Jednou z nich je i souborový systém HDFS (Hadoop Distributed File System).

HDFS lze považovat za dostačující pro většinu úloh spouštěných v pilotním režimu, zkušební projekty a obecně pro nepříliš náročná prostředí.

Nicméně i přes jeho trvalý vývoj pod křídly Apache Software Foundation je u něj stále co zlepšovat, zejména z hlediska výkonu, dostupnosti či podnikových funkcí. Není proto divu, že se objevují alternativní řešení, která se Hadoop Distributed File System snaží nahradit.

Hadoop bez HDFS realitou

Následující přehled vám stručně přiblíží osm produktů, jejichž výrobci či propagátoři tvrdí, že mohou nabídnout to, co HDFS v současnosti zatím nedokáže:

Cassanda
Cassandra není souborový systém, ale open source NoSQL databáze. O jejím využití lze hovořit zejména u webových aplikací, které závisí na rychlém přístupu k datům.

O komercionalizaci tohoto projektu se pokouší společnost DataStax, která přišla s myšlenkou propojení Hadoopu a Cassandry  právě pro webové aplikace, které potřebují mít co nejrychlejší přístup k datům zpracovávaným Hadoopem a současně aby měl Hadoop rychlý přístup k datům, které proudí do Cassandry od webových uživatelů.

Ceph
Také Ceph je open source řešení, které funguje jako vícecestný úložný systém a nedávno začal být nabízen i komerčně pod názvem Inktank. Jeho silnou stránkou je to, že je schopný fungovat jako vysoce výkonný paralelní souborový systém, což z něj dělá velmi vážného kandidáta pro nahrazení HDFS v prostředích Hadoopu.

Někteří komentátoři o této možnosti hovoří již od roku 2010 a v současnosti se tato vize stává v řadě implementací Hadoopu realitou.

Dispersed Storage Network
Za tímto relativně mladým produktem stojí společnosti Cleversafe, která nedávno oznámila produkt, který má sloučit Hadoop MapReduce s firemním systémem pro ukládání dat. Dispersed Storage Network se nespoléhá na replikaci a NameNoda a pracuje s distribucí metadat napříč klastrem, což má přinést mnohem větší výkon, spolehlivost a škálovatelnost než u HDFS.

General Parallel File System
Společnost IBM prodává svůj General Parallel File System (GPFS) zákazníkům z oblasti high-performance computingu již roky a je nasazen i v některých nejvýkonnějších superpočítačích světa. V roce 2010 pak byl tento souborový systém upraven pro Hadoop. IBM tvrdí, že edice GPFS-SNC (Shared Nothing Cluster) je mnohem rychlejší než souborové systémy jako HDFS zejména proto, že běží na úrovni kernelu a nikoliv na vrcholu operačního systému.

Isilon
Také další velký hráč v oboru, společnost EMC, nabízí svojí vlastní Hadoop distribuci již více než rok, ale v lednu 2012 představila nový způsob, jak uspokojit náročné požadavky firem, kterým již nestačí HDFS. A to nahradit jej souborovým systémem EMC Isilon OneFS. Vzhledem k tomu, že Isilon dokáže přečíst protokoly HDFS, NFS a CIFS, může pak jeden Isilon NAS sloužit jako univerzální systém pro příjem, zpracování a analýzu dat v prostředí Hadoop.

Lustre
Lustre je vysoce výkonný open source souborový systém, který může sloužit jako alternativa k HDFS tam, kde je kladený velký důraz na výkon. Lustre zatím nepatří mezi příliš rozšířené náhrady HDFS, ale například společnost Xyretex prohlašuje, že klastr založený na Lustre (a to dokonce s InfiniBandem) bude výrazně rychlejší a levnější než klastr založený na HDFS.

MapR File System
Naopak MapR File System je asi nejznámější náhradou HDFS a hlavním důvodem je opět rychlost. V průměru má být rychlejší dvou- až pětinásobně, nicméně existují operace, v nichž dosahuje až dvacetinásobného výkonu. Podporuje také funkce jako zrcadlení, tvorbu snapshotů či vysoké dostupnosti, což jsou vlastnosti, které podnikoví zákazníci rádi u nasazovaných řešení vidí.

NetApp Open Solution for Hadoop
Posledním řešení, které zde zmíníme, je NetApp Open Solution pro Hadoop. To ale není zamýšlené přímo jako přímá náhrada HDFS, ale spíše jako jeho zlepšení. A to zejména díky adopci Hadoop architektury na RAID pole s HDFS. Podle NetAppu se jedná o mnohem rychlejší, spolehlivější a také bezpečnější řešení, které lze nasadit i v rámci velmi vytížených firemních prostředích.

Zanechte komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *


− čtyři = jedna

Můžete používat následující HTML značky a atributy: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Copyright © ICT manažer | ISSN 1805-5486 | SEO optimalizace a přizpůsobení SEO-care.cz