Počítač a Holocaust ****************************************************************************************** * Počítač a Holocaust ****************************************************************************************** S neúprosným tokem času ubývá očitých svědků událostí, jež jsou pro historii důležité neje ale především jako memento. To si také v průběhu přípravných prací na natáčení filmu Schin mapujícího osudy Židů za druhé světové války, uvědomil světoznámý americký režisér Steven reagoval nedocenitelným počinem: založil nadaci SHOA VISUAL HISTORY FOUNDATION. V současné době je nadace přetvořena v Shoa Foundation Institute for Visual History a půso of South California. Jejím cílem bylo shromáždit svědectví přeživších, osvoboditelů a svěd holocaustu. Výsledkem je velký mnohojazyčný soubor audiovizuálních nahrávek, obsahující 116 000 hodin záznamů rozhovorů ve dvaatřiceti jazycích s 52 000 respondenty. Pro zajímavost uveďme, že je z USA – 19 841 – a z Izraele – 8504; Česko přispělo 566 a Slovensko 656 dokumenty. Tato neříkají o jazycích dokumentů. Soubor je nedocenitelným zdrojem informací nejen pro historiky, ale i pro sociology, psych učitele všech stupňů škol, národopisce, samozřejmě filmaře (z archívu již byla použita řad další dokumentární filmy, například i českého režiséra Vojtěcha Jasného) atd. Dají se tu i informace a souvislosti, které třeba unikly i při soudních procesech v minulosti. INFORMAČNÍ LABYRINT Orientovat se v rozsáhlém souboru vzpomínek svědků nacistického vyvražďování Židů je velmi důležitou roli tu dnes hraje komputační lingvistika s počítačovým modelem „porozumění“ (un psaným i mluveným projevům. Problém porozumění přirozenému jazyku má mnoho vrstev, a to ja složitosti, tak co do rozsahu: od vyhledávání netriviální informace v textech až po úplné sdělení se schopností vyvozování důsledků. Bez možnosti počítačového vyhledávání by nebylo silách tento archív zpracovat a následně v souboru vyhledávat relevantní informace. Původn Shoa byl, že by to stálo víc než 150 miliónů dolarů. Jako příklad systému integrujícího schopnost „porozumění“ mluvené řeči a schopnost vyhleda informaci v rozsáhlých vícejazyčných dokumentech můžeme uvést projekt MALACH (akronym pro Multilingual Access to Large Spoken ArCHives), jehož cílem je umožnit přístup právě k doku shromážděným Spielbergovou nadací. Nejde o úlohu snadnou: různí mluvčí odkazují často k té z jiného úhlu pohledu, v různých jazycích i souvislostech atd. Jde o data výjimečně bohatá charakteru: ne vždy mluvčí užívali svůj mateřský jazyk (po osvobození z koncentračních táb nevrátili do rodné země, někteří z ní emigrovali v poválečném období, jejich znalost nově ovšem stále nesla stopy po jazyku mateřském). Jindy naopak mluvili jazykem mateřským, ale nebo menšími vlivy jazyka země, v níž žijí. Jejich promluvy byly pochopitelně velmi emotiv je i německými slovy, která byla v táborech běžná. Videonahrávky umožňují sledovat i vztah mimikou obličeje a promluvou atd. CO SE LZE DOZVĚDĚT Výsledky projektu mají vést k získání odpovědí na dotazy jako Co se dělo v táboře Treblink nebo Kterými tábory prošla paní X. Y.? Odpovědi budou někdy širší, než by dotaz vyžadoval na první otázku může zahrnovat delší období než jen měsíc září), nebo neúplné (např. výčet otázce). Podkladem pro odpověď samozřejmě budou dokumenty získané od různých mluvčích, s r ale vždy s nějakou informací relevantní pro daný dotaz. Předpokládá se, že dotazy, stejně souboru obsažená, mohou být formulovány ve kterémkoli z dvaatřiceti jazyků. Projekt zahrnuje automatické rozpoznávání mluvené řeči i počítačem podporovaný oborově spe na základě mnohojazyčného zásobníku (multilingválního tezauru). Vytváří dosud nevídané mož výzkum daného období pro historiky, ale přináší i bohatý a jinak nedostupný materiál pro v katalogizace promluv i obecně pro vyhledávání a využití informace atd. Projekt je velmi do spojení vědeckého výzkumu s aplikační oblastí. PODÍLNÍCI PROJEKTU Projektu se účastní několik výzkumných pracovišť: vedle zmíněného institutu je to IBM Thom Research Center v Yorktown Heights, N. Y., dvě americké univerzity (Johns Hopkins Universi a University of Maryland) i Ústav formální a aplikované lingvistky na MFF Univerzity Karlo katedra kybernetiky fakulty aplikovaných věd Západočeské univerzity v Plzni. Je třeba zdůr česká pracoviště se zúčastnila výběrového procesu vypsaného americkou grantovou agenturou řešitelský tým má přitom na starost češtinu, slovenštinu, ruštinu, polštinu a maďarštinu.