Čeští vědci porazili Google ****************************************************************************************** * Čeští vědci porazili Google ****************************************************************************************** 11.10.2013, Rubrika: Téma, Strana: 4, Téma: Univerzita Karlova, Michal Kalina redaktor V každoroční překladové soutěži Workshop on Statistical Machine Translation [ URL "http:// wmt13/"] , kterou podporuje Evropská komise, se snaží mezinárodní týmy vylepšit stávající Moses (Mojžíš) či jemu podobné. Pro srovnání jsou zastoupeny i komerční překladače, jako j Googlu. Letos se ho poprvé při překladu z angličtiny do češtiny povedlo překonat týmu vědců z Mate fakulty [ URL "http://www.mff.cuni.cz/"] Univerzity Karlovy v Praze, čímž mimo jiné ukázal komerční produkty mohly ubírat. "Počítače textům samozřejmě nerozumějí, počítače jen simul my se jim snažíme vysvětlit, jak to mají dělat," říká člen týmu Ondřej Bojar z Ústavu form lingvistiky [ URL "http://ufal.mff.cuni.cz/"] . Moses vznikl kolem roku 2006 a jde o open-source překladový systém, nebo spíš jeho prototy používají různé evropské firmy, které ho zároveň zdokonalují. Jak tvrdí Bojar, není ale je naučit pracovat, a proto se zatím nedočkal většího rozšíření mezi běžné uživatele. Velcí internetoví hráči, ať už je to právě Google nebo Microsoft, nabízejí zatím nepříliš už několik let. Historie strojového překládání však sahá až do 50. let 20. století, kdy ta předvedla poprvé jiná americká společnost – IBM. Tehdy šlo ale o primitivní variantu, prud překladače dočkaly až v 90. letech. Odborníci z Matfyzu se na letošním workshopu rozhodli zkombinovat rovnou dva překladové sy díky tomu uspěli. Nejprve zkušební text vložili do systému TectoMT, který vyvinuli jejich využívá syntaktický (hloubkový) překlad a převádí anglický větný rozbor na český. Věty z TectoMT jsou gramaticky správně, shoduje se třeba podmět s přísudkem, ale větám něk slova. Proto Češi rozbor prvního systému použili coby vstupní data pro druhý systém – Mose na základě naučených frází. "Je to jako bilingvní kniha, kdy má překládací systém zásobu vět ve dvou jazycích a z nich Zkrátka jde o velkou zásobu dat a počítač se z toho naučí, které posloupnosti anglického j posloupnosti českých slov. Spoléhá se přitom na co největší počet i tvarovou pestrost výsk trénovacích datech," vysvětluje Bojar, jak pracuje. Pomohl odstraňovač chyb Nevýhodou frázového systému je, že není schopný samostatně vytvořit jiné tvary slov než ty Navíc nedodržuje gramatiku. Dohromady ale oba systémy poskytují lepší výsledky. Aby byl výsledek ještě lepší, prošel výsledný text ještě automatickou korekturou pomocí če Depfix, odstraňovače chyb, jenž opravil například špatně přeložené negativní věty a pády. Podle Bojara Google používá pro překlady několik způsobů, češtinu ale nejspíše zpracovává systémem, podobným vědeckému Mosesu, který má dvě složky – překladový model, jenž umí přel slovo nebo sousloví, a jazykový model, který hlídá slovosled a plynulost výstupu. Veliké m nestačí na tak kvalitní překlad, k němuž došli čeští vědci. Na komerční využití zatím nepomýšlí, protože spojení systémů zatím není příliš praktické. interaktivní použití například na internetu, jak uvádí Bojar, ale možné je a zájemci se ji z Matfyzu zatím pracuje na dalších vylepšeních, jako je řešení některých chybných výstupů, zmíněných negativních vět, přímo v rámci systémů.