Překladač z Matfyzu dohání v kvalitě běžné překladatele ****************************************************************************************** * ****************************************************************************************** Univerzita Karlova Ovocný trh 5, Praha 1, 116 36 www.cuni.cz [ URL "http://www.cuni.cz"] Praha 8. září 2020 - Prestižní vědecký časopis Nature Communications publikoval studii rea Matematicko-fyzikální fakultě Univerzity Karlovy, která představila anglicko-český překlad založený na neuronových sítích, jenž při překladu novinových zpráv dosahuje kvality srovna profesionálních překladatelů. V zaslepeném testu byly automatické překlady hodnotiteli ozn průměru o něco méně plynulé, ale obsahově mírně přesnější než překlady lidské. Jednou z nejpopulárnějších aplikací metod umělé inteligence (AI) v oblasti zpracování přir je automatický překlad z jednoho jazyka do jiného. Donedávna se předpokládalo, že pro kval nutné velmi důkladné porozumění obsahu překládaného textu a že automatizovaný překlad kval s výsledkem lidského překladatele tedy ještě dlouho nebude na dohled. V automatizovaném př jako v jiných oblastech AI, nastala ale díky pokroku v tzv. hlubokém učení v posledních le změna paradigmatu, která tuto dosavadní představu mění. Jako významný úspěch se jeví výsledek experimentu, který byl pro překladový směr angličtin realizovaný na Matematicko-fyzikální fakultě Univerzity Karlovy ve spolupráci s vědci z Un Oxfordu (oba též absolventi MFF UK) a z týmu Google Brain. Autoři natrénovali neuronovou s anglickém paralelním korpusu, což je kolekce autentických anglických textů a jejich protěj do češtiny o celkové velikosti 58 milionů párů vět. Výsledný překladač nazvaný CUBBITT autoři použili k přeložení vzorku anglických novinových vzorek byl nezávisle přeložen profesionálními překladateli z překladové agentury. Kvalita automatických i ručních překladů byla následně hodnocena 15 rodilými mluvčími češtiny, kte přesnost a plynulost překladu. Hodnocení bylo slepé, tj. hodnotitelé neměli informaci o to překládal. „Výsledek srovnání můžeme považovat za průlomový. Automatický překladač sice nepatrně poku lidskými překladateli v hodnocení plynulosti, byl ale v průměru o něco přesnější, pokud jd správnost překladu. Naměřený výsledek byl statisticky signifikantní“, uvedl hlavní autor s Popel, Ph.D. z MFF UK. Podobné pozorování autoři učinili již v roce 2018, ovšem tehdy byly izolované věty (bez kontextu celého článku). Jedna z nových myšlenek, díky které překladač dosáhl výrazného zlepšení oproti předchozím ve způsobu, jakým byla překladači při trénování střídavě předkládána autentická a syntetic data (páry českých vět a jejich automatických překladů do angličtiny). Velikost existující dat, tj. lidmi vytvořených anglicko-českých překladů, je z principu omezená a roste relati Proto se k nim přimíchávají ještě syntetická paralelní data, kde pro existující autentické byly jejich anglické protějšky vygenerovány automatickým překladem v opačném směru (tzv. b nižší kvalita na straně vstupního jazyka, zde angličtiny, totiž při trénování překladače v Velmi překvapivé experimentální pozorování spočívalo v tom, že je výhodnější neuronové sít autentická a syntetická data nikoli rovnoměrně promísená, ale ve specificky vyváženém rytm se autentických a syntetických bloků. Prvotní impuls pro zkoumání tohoto směru vznikl vlas mísení zůstalo omylem vypnuté a tato „chyba“? způsobila okamžitý růst úspěšnosti překladač Autoři studie upozorňují, že i přes představený pokrok se situace zatím výrazně liší od ji kde se AI v posledních letech úspěšně utkává s člověkem. Zatímco například v šachu dnes AI rutinně i nejlepší hráče světa, zde šlo o „soutěž“ s běžnými (byť profesionálními) překlad danou chvíli ani nevěděli, že „soutěží“. Měření navíc proběhlo pouze na specifickém žánru a výsledky rozhodně nelze zobecňovat na překladatelskou práci jako celek. Pro více informací o studii kontaktujte: Mgr. Martin Popel, Ph.D. Ústav formální a aplikované lingvistiky MFF UK tel.: 951 554 278 e-mail: popel(zavinac)ufal.mff.cuni.cz [ MAIL "popel(zavinac)ufal.mff.cuni.cz "] ZA SPRÁVNOST: Mgr. Václav Hájek Tiskový mluvčí UK Odbor vnějších vztahů Univerzita Karlova tel: +420 224 491 248 mob: 721 285 565 e-mail: pr@cuni.cz POZNÁMKY: Článek v Nature Communications je k dispozici zde: https://www.nature.com/articles/s41467- "https://www.nature.com/articles/s41467-020-18073-9 "] Experiment proběhl v Ústavu formální a aplikované lingvistiky Matematicko-fyzikální fakult jej možné realizovat díky špičkovému technickému zázemí pracoviště, které disponuje výpoče (přes 100 GPU s velkou pamětí a 2000 CPU) a mimo jiné provozuje uzel jazykové výzkumné inf LINDAT/CLARIAH-CZ, ve které je také experimentální verze překladače k dispozici veřejnosti https://lindat.cz/services/translation [ URL "https://lindat.cz/services/translation"] . P nabízí studijní programy zaměřené na zpracování přirozeného jazyka a vede své studenty, ab od začátku srovnávat své síly se zahraniční konkurencí. Hlavní autor studie Mgr. Martin Po implementoval představený překladač ještě jako doktorand a úspěšně se zúčastnil několika r automatickém překladu WMT Shared Task. Díky zmíněnému vybavení pracoviště například mohl v jeden přípravný experiment spotřebovat 4 roky strojového času. Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulty Univerzity Karlovy b 1990 jako pokračování výzkumné a pedagogické činnosti bývalé Laboratoře algebraické lingvi od počátku 60. let na Filozofické fakultě a později na Matematicko-fyzikální fakultě Unive Ústav je především výzkumnou institucí, která se zabývá mnoha tématy v oblasti počítačové a zpracování přirozeného jazyka a která se účastní mnoha výzkumných projektů na národní i úrovni. Je také koordinačním pracovištěm velké výzkumné infrastruktury LINDAT/CLARIAH-CZ, výzkum v České republice i ve světě poskytováním jazykových zdrojů, nástrojů a služeb v ob technologií a digitálních humanitních věd. Ústav formální a aplikované lingvistiky nabízí program jak pro bakalářský a magisterský stupeň (Bc., Mgr.), tak pro doktorské studium (Ph počítačové lingvistiky. Všechny programy se vyučují v češtině a angličtině. Ústav je také evropských univerzit, které poskytují magisterský "double degree" program LCT (https://lct [ URL "https://lct-master.org/"] ).