Big data otevírají cestu sumarizaci a třídění e-mailů

Albert Ryba | 03.10.2013 | Internet a služby, Software | Žádné komentáře

Denně je na světě posláno přes 150 miliard e-mailových zpráv ze zhruba 3,5 miliardy účtů. Každý z nás je tak pravděpodobně zahlcen různě důležitými zprávami a mezi nimi se mohou snadno ztratit ty nejdůležitější. To může být kritické zejména u pracovníků na nejvyšších pozicích a e-mail v takových případech nelze považovat za spolehlivou cestu k předávání informací.

Tým izraelských vědců ale pracuje na řešení tohoto problému za využití big data technologií, kterými se snaží e-maily nejen roztřídit podle jejich důležitosti, ale i sumarizovat tak, aby si je příjemce mohl mnohem rychleji prohlédnout, což se hodí zejména na mobilních přístrojích. Projekt, na kterém se pracuje na univerzitě v izraelské Be’er-Shevě, je zaměřen na algoritmickou sumarizaci bloků textu a identifikaci nejdůležitějších elementů. Mělo by tak vzniknout jakési „preview“, které na první pohled umožní adresátovi identifikovat obsah a důležitost. Celkově jde o to zredukovat dlouhé e-maily na zhruba 100-200 slov při zachování toho nejdůležitějšího.

Ve tvorbě shrnutí je budoucnost

Využíván jsou k tomu právě nástroje pro práci s velkými objemy dat a s příslušnými analýzami. V týmu jsou experti, kteří s podobnými algoritmy pracují již od doby, kdy ještě buzzword „big data“ ani neexistoval a hovořilo se zejména o web miningu a text miningu.

Projekt, který by měl být schopný vyhodnocovat a třídit e-maily s určitou úrovní inteligence, by mělo být možné využít také k boji proti zločinu. Na internetu jsou desítky tisíc zločineckých a teroristických organizací, které svoji komunikaci více či méně účinně maskují. Projekt počítá s tím, že by detekoval určité fráze, podle nichž by mohl automaticky upozorňovat na případnou komunikaci těchto skupin.

Také možnost sumarizace je užitečná zejména pro agentury, které musí sledovat velké množství zdrojů informací a schopnost smysluplně shrnout jakýkoliv text do 100-200 slov může přinést výraznou úsporu času nejen v úvodu zmíněným manažerům. Hlavní výzvou je dokázat rozlišit co lze v textu ignorovat a co má význam, protože to se může lišit na konkrétním kontextu a nelze to vždy paušalizovat.

Otevírá se značný potenciál

Projekt v současnosti pracuje s texty psanými v angličtině, protože současný web je primárně anglický a existují již poměrně výkonné nástroje schopné převést libovolný jazyk do angličtiny v rozumné podobě. Nicméně rozpracované jsou i další jazyky, spojené s geografickým místem vývoje, jako jsou hebrejština a arabština a teoreticky by mělo být možné při dostatečném počtu vzorků sumarizovat text v libovolném jazyce.

Algoritmus konkrétně skenuje věty a nejprve počítá metriky, jako jsou počty slov a vztahy mezi slovy ve větě. Následně pak větám přidělí váhu a snaží se určitě ty důležitější. Algoritmus bere také v úvahu shrnutí vytvořená lidmi a dívá se na formu používaných slov a frází, což mu má pomoci v automatické sumarizaci textů.

Pokud by se technologie, která se testuje zatím jen na akademické půdě osvědčila, nelze vyloučit, že by se brzy mohla dostat i do komerčního nasazení a objevit se v běžných e-mailových službách. Ty ostatně již několik let zažívají inovační vakuum, protože jejich poskytovatelé nemají příliš co zlepšovat. Na metodu sumarizace textu již vědci podali patentovou přihlášku a plánují ji licencovat komerčním organizacím, pokud o ni projeví zájem. Nelze ani vyloučit, že na podobných algoritmech pracují i takové firmy jako Google, ale je jasné, že ty si chtějí svoje úspěchy nechat pod pokličkou. Například Yahoo již letos v březnu koupilo technologii pro sumarizaci textů od jiných vývojářů, což značí, že je o tuto funkci zájem a lze předpokládat, že se jí v Yahoo Mailu proto dočkáme jako první. Obecně ale bude v těchto nástrojích stále co zdokonalovat, nicméně komentátoři se shodují, že automatická tvorba shrnutí textů má v dnešním světě plných informací svoje důležité místo.

Zanechte komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *


devět + = sedmnáct

Můžete používat následující HTML značky a atributy: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Copyright © ICT manažer | ISSN 1805-5486 | SEO optimalizace a přizpůsobení SEO-care.cz