Deduplikace dat: Principy a úspora diskové kapacity

Miroslav Franek | 20.03.2013 | Hardware, Software | 1 komentář

Deduplikace dat je metoda eliminující ukládání duplicitních dat. Funguje tak, že z identických dat se uloží pouze jedna kopie a všechny ostatní nahrazují odkazy na ní. Deduplikace je jednoduchá myšlenka, která přináší obrovské úspory.

Není překvapující, že v souvislosti se současným explozivním růstem dat plánuje tento velmi perspektivní a efektivní nástroj zavést v co nejkratším období mnoho podniků. Díky deduplikaci dokáží ušetřit velké množství diskové kapacity a dosáhnout tak nižších kapitálových výdajů a nižších provozních nákladů na IT infrastrukturu a její správu.

Příklad deduplikace zálohování souborového serveru

Uveďme si velmi zjednodušený názorný příklad: Řekněme, že 500 lidí dostane celopodnikový e-mail s přílohou velikosti 1 MB. V případě, že si ho každý příjemce uloží lokálně, příloha bude zreplikovaná 500krát na osobních počítačích v síti. Během zálohování by pak i systém bez deduplikace dat uložil danou přílohu 500krát, což znamená, že by zabrala o 499 MB více prostoru v zálohách, než je nutné.

Mnohonásobné ukládání dat je velmi drahé a neefektivní. Naproti tomu při deduplikaci dat se zálohuje pouze jedna instance dat z dané přílohy a zbylých 499 se nahradí odkazy na tuto jedinou kopii. Tohoto rozdílu v objemu uložených dat – 499 MB bez deduplikace a 1 MB s deduplikací – je dosaženo jen při zálohování jediného firemního e-mailu. Deduplikace však funguje i na úrovni bloků.

Pokud se provede změna původního souboru, při deduplikaci se uloží pouze ty bloky dat, které byly pozměněny (blok má obvykle velmi malý objem – mezi 2 a 10 kilobajty dat). Konkrétně to znamená, že pokud se změnil název u 1MB souboru, při deduplikaci dat bude uložen pouze nový název (obvykle v datovém bloku s objemem 4 kB) s odkazy na první zálohu daného souboru, takže nová záloha si vyžádá jen 4 kB nových dat.

deduplikaceSamozřejmě, velmi důležité je, jaká data deduplikujeme. Ne u všech dat dokážeme dosáhnout tak vysokého deduplikačního poměr, jak jsme uvedli v příkladu výše. V tabulce vidíme příklad deduplikace zálohování souborového serveru, kde firma dokáže ušetřit několik tisíc gigabajtů prostoru.

Různé druhy deduplikace

V současnosti existuje několik různých deduplikační technologií. Liší se zejména zaměřením na cílovou skupinu zákazníků a zařízeními, na kterých jsou provozovány. Pokud se rozhlédneme po trhu, zjistíme, že jsou na jedné straně k dispozici technologie vhodné pro nasazení jen v prostředí malých zákazníků či na úrovni poboček a na druhé straně pak specializované technologie, vhodnější pro velké datová centra s objemem dat ve stovkách TB až PB.

Z jiného úhlu pohledu vidíme deduplikační technologie v podobě softwaru nasazovaného na koncová zařízení nebo technologie využívající specializovaný hardware. Deduplikace může probíhat na straně serveru (source-based) nebo na straně paměťového a zálohovacího zařízení (target-based). Deduplikace také může probíhat in-line, jak data přicházejí, a nebo jako post-process, tedy až po zapsání na disk.

Společnosti, které zvažují implementaci deduplikačního řešení, se musí zorientovat v širokém portfoliu technologií. Různí dodavatelé používají velmi odlišné způsoby deduplikace. Tyto metody mohou mít dopad na celkový výkon a využití úložných systémů, zálohovacího okna, tak na celý životní cyklus dat.

Proto doporučujeme: vždy si udělejte Proof of Concept nebo test deduplikace a zjistěte měřitelné výsledky. Zamyslete se nad životním cyklem dat a zjistěte, kde má deduplikace největší efekt. Zjistěte, jaké benefity může přinést deduplikace pro byznys společnosti.

Autor pracuje jako odborník na storage a servery ve společnosti HP.

Zdroj: Infoware.sk

1 komentář u článku “Deduplikace dat: Principy a úspora diskové kapacity”

  1. Patrik Veselík napsal:

    Deduplikace je zaklínadlem serverů už nějakou dobu. Ale existuje SW deduplikace jako nadstavba NTFS pro desktopy?

Zanechte komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *


devět − = jedna

Můžete používat následující HTML značky a atributy: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Copyright © ICT manažer | ISSN 1805-5486 | SEO optimalizace a přizpůsobení SEO-care.cz