Hrozí, že čeština zmizí z počítačů ****************************************************************************************** * Hrozí, že čeština zmizí z počítačů ****************************************************************************************** Hospodářské noviny, 27.9.2011, Rubrika: Česko, Strana: 4, Autor: Zuzana Keményová věda a výzkum Bílá kniha češtiny Výzkum české lingvistiky pro počítače je na samém začátku Programů, které by rozuměly češt velmi málo V Česku vyšla první Bílá kniha češtiny - zásadní dokument, který mapuje minulý i budoucí v Čechů ve vztahu k moderním technologiím. Ironií je, že kdo umí jen česky, příliš si v ní n kniha češtiny zatím existuje jen v angličtině, a to navíc v odborné. „Potřebovali jsme ji představit před Evropskou komisí a na český překlad ještě nebyl čas. něm, bude hotový do dvou měsíců,“ ujišťuje Jan Hajič, profesor Ústavu formální a aplikovan Matematicko-fyzikální fakultě Univerzity Karlovy, který se svým týmem studii připravil. Anglicky psaná Bílá kniha češtiny je nechtěným důkazem svých vlastních zjištění. Práce, kt jak se český jazyk vyrovnal s nástupem počítačů a internetu v posledních dvaceti letech, t k závěru, že čeština je v ohrožení. Alespoň v útrobách počítačových technologií, ze kterýc nahrazuje ji angličtina a další světové jazyky. „Ještě nikdo neinvestoval do výzkumu češtiny pro počítače v takové míře, aby jí stroje sku a nepotřebovaly pomoc člověka. Nadnárodní firmy sice investují obrovské prostředky do výzk technologií pro pár světových jazyků, čeština je ale na pokraji zájmu. Je možné, že v budo počítačového prostředí, včetně například internetu, začne postupně mizet,“ upozorňuje Haji Statistika pro češtinu nefunguje Bílá kniha upozorňuje, že s češtinou si neumějí poradit p složitější jazykové technologie. „Například rozpoznávání mluvené češtiny je v úplných začátcích. Hlavní problém je obrovské forem ohýbání slov a také volný pořádek slov ve větě. To znemožňuje použít statistické mod které je založeno na nejčastějších slovních tvarech a spojeních a funguje například pro an shrnuje studie. Pro češtinu neexistují kvalitní překladače ani programy, které dokážou česky psaný text an udělat z něj v češtině výtah, což se běžně používá například v anglicky mluvících zemích. technologie, která funguje na dobré úrovni, jsou takzvané spelling checkery - jednoduché p upozorňují na gramatické chyby v textových souborech. Neschopnost počítačů rozumět češtině se projevuje i ve vyhledávání na internetu. „Místní v osvojily některé části morfologické analýzy, ale jejich kvalita se různí,“ uvádí Bílá knih pracují na základě indexace, kdy „robot“ ověří shody požadovaného dotazu se všemi dostupný stránkami. „Způsobů, jak se Google učí česky, je několik a nejvíce se naučí právě přímo z Například ze dvou po sobě zadaných dotazů ,hotel Praha‘ a ,hotel v Praze‘ se naučí, že Pra související pojmy,“ vysvětluje Vladimír Třebický, vývojář Googlu v Curychu. „Vytvořit jazykový model češtiny nebo jakéhokoliv jiného jazyka je však náročný úkol,“ dod Podle autorů Bílé knihy není problém v češtině jako takové, ale v neochotě firem investova malým počtem mluvčích. „České firmy nechtějí investovat peníze do složité přípravy dat. Chtěly by už hotový jazyk kterému porozumí jejich počítač,“ říká Hajič a dodává, že například v anglicky mluvících z pomocí řečových automatů nebo analyzátorů textů šetří statisíce dolarů. Když například ame volá do větší firmy, prvních pár otázek položí stroji, který mu porozumí. Lékař zase popis přímo do svého počítače. Software v angličtině frčí Výrobci softwaru potvrzují, že o angličtinu v počítačích je v Č zájem. „Je to skutečně trend. Je to dáno lepší jazykovou vybaveností mladých profesionálů, Svoboda, marketingový manažer softwarové firmy Autodesk. „Firmy mají zájem o programy v an společností totiž pracuje v mezinárodním prostředí, ve kterém je nejčastěji používána angl termíny,“ dodává Svoboda. „Některé softwary zaměřené například na správce IT nebo vývojáře v angličtině i v české verzi. Lidé z těchto oborů ale češtinu obvykle ani nevyžadují a cht verzi,“ dodává Lukáš Křovák, manažer společnosti Microsoft. *** Co počítače neumějí Pořádek slov ve větě Čeština má téměř volný slovosled, počítač má proto problém rozeznat, přísudek a která slova se na sebe vážou. Ohýbání slov Počítače mají problém rozlišit správné tvary slov podle pádu, čísla a rodu. Někdy je možné oddělit přídavné jméno od podstatného jména a položit jej kamkoliv ve větě čas.“). Web a cizí jazyky 57 procent uživatelů internetu v Evropě nakupuje zboží a služby v intern obchodech, které nejsou v jejich mateřské řeči. 55 procent uživatelů čte na internetu obsah v jiné než mateřské řeči. 35 procent uživatelů píše v cizí řeči e-maily nebo vkládá texty na web. Zdroj: Evropská ko