Čeští vědci porazili Google












            ******************************************************************************************

            * Čeští vědci porazili Google
            ******************************************************************************************
            11.10.2013, Rubrika: Téma, Strana: 4, Téma: Univerzita Karlova, Michal Kalina redaktor

            V každoroční překladové soutěži Workshop on Statistical Machine Translation [ URL "http://
            wmt13/"] , kterou podporuje Evropská komise, se snaží mezinárodní týmy vylepšit stávající 
            Moses (Mojžíš) či jemu podobné. Pro srovnání jsou zastoupeny i komerční překladače, jako j

            Googlu.
            Letos se ho poprvé při překladu z angličtiny do češtiny povedlo překonat týmu vědců z Mate
            fakulty [ URL "http://www.mff.cuni.cz/"] Univerzity Karlovy v Praze, čímž mimo jiné ukázal

            komerční produkty mohly ubírat. "Počítače textům samozřejmě nerozumějí, počítače jen simul
            my se jim snažíme vysvětlit, jak to mají dělat," říká člen týmu Ondřej Bojar z Ústavu form

            lingvistiky [ URL "http://ufal.mff.cuni.cz/"] .
            Moses vznikl kolem roku 2006 a jde o open-source překladový systém, nebo spíš jeho prototy
            používají různé evropské firmy, které ho zároveň zdokonalují. Jak tvrdí Bojar, není ale je

            naučit pracovat, a proto se zatím nedočkal většího rozšíření mezi běžné uživatele.
            Velcí internetoví hráči, ať už je to právě Google nebo Microsoft, nabízejí zatím nepříliš 
            už několik let. Historie strojového překládání však sahá až do 50. let 20. století, kdy ta

            předvedla poprvé jiná americká společnost – IBM. Tehdy šlo ale o primitivní variantu, prud
            překladače dočkaly až v 90. letech.
            Odborníci z Matfyzu se na letošním workshopu rozhodli zkombinovat rovnou dva překladové sy

            díky tomu uspěli. Nejprve zkušební text vložili do systému TectoMT, který vyvinuli jejich 
            využívá syntaktický (hloubkový) překlad a převádí anglický větný rozbor na český.
            Věty z TectoMT jsou gramaticky správně, shoduje se třeba podmět s přísudkem, ale větám něk

            slova. Proto Češi rozbor prvního systému použili coby vstupní data pro druhý systém – Mose
            na základě naučených frází.
            "Je to jako bilingvní kniha, kdy má překládací systém zásobu vět ve dvou jazycích a z nich

            Zkrátka jde o velkou zásobu dat a počítač se z toho naučí, které posloupnosti anglického j
            posloupnosti českých slov. Spoléhá se přitom na co největší počet i tvarovou pestrost výsk
            trénovacích datech," vysvětluje Bojar, jak pracuje.

            Pomohl odstraňovač chyb
            Nevýhodou frázového systému je, že není schopný samostatně vytvořit jiné tvary slov než ty
            Navíc nedodržuje gramatiku. Dohromady ale oba systémy poskytují lepší výsledky.

            Aby byl výsledek ještě lepší, prošel výsledný text ještě automatickou korekturou pomocí če
            Depfix, odstraňovače chyb, jenž opravil například špatně přeložené negativní věty a pády.
            Podle Bojara Google používá pro překlady několik způsobů, češtinu ale nejspíše zpracovává 

            systémem, podobným vědeckému Mosesu, který má dvě složky – překladový model, jenž umí přel
            slovo nebo sousloví, a jazykový model, který hlídá slovosled a plynulost výstupu. Veliké m
            nestačí na tak kvalitní překlad, k němuž došli čeští vědci.

            Na komerční využití zatím nepomýšlí, protože spojení systémů zatím není příliš praktické. 
            interaktivní použití například na internetu, jak uvádí Bojar, ale možné je a zájemci se ji
            z Matfyzu zatím pracuje na dalších vylepšeních, jako je řešení některých chybných výstupů,

            zmíněných negativních vět, přímo v rámci systémů.