„Naším cílem je vytvořit univerzální generátor přirozeného jazyka, který se bude učit pouze z pár příkladů a nebude dělat chyby,“ popisuje Ondřej Dušek z Matfyzu. Pokud se vše vydaří, můžeme se těšit například na mluvící robotickou Alexu a další chytré asistenty v češtině nebo nejrůznější aplikace přehledně shrnující i složitá data. Ondřej Dušek z Matematicko-fyzikální fakulty UK nyní získal od Evropské výzkumné rady (ERC) prestižní Starting Grant na výzkum generování přirozeného jazyka. Do Česka putují čtyři ERC granty.
„Představte si, že máte meteostanici, která měří teplotu, tlak, rychlost větru a další parametry. Výstupem je obrovská tabulka dat, která je ale nepřehledná a nedá se v ní jednoduše číst. Úkol generátoru přirozeného jazyka je automaticky převyprávět tabulku dat tak, abychom získali nejdůležitější a relevantní informace a aby vytvořený text byl srozumitelný a dobře se četl,“ vysvětluje Ondřej Dušek. Podobné aplikace již dnes existují například ve sportu, kde některé sportovní zprávy – o výsledcích utkání a kolik kdo nastřílel gólů – jsou již generovány automaticky.
V současnosti se pro generování přirozeného jazyka používají dva přístupy. Většina komerčních systémů využívá šablon – ručně předpřipravených vět, kam se při „generování“ jen doplňují konkrétní hodnoty, například v kolik hodin odjíždí vlak. „Příprava šablon je velmi pracná, což je i jeden z důvodů, proč například Alexa nefunguje v češtině – je to drahé a firmám se to nevyplatí, protože jsme jen malý trh,“ říká Dušek.
Druhým přístupem jsou neuronové sítě, které se učí z obrovského množství dat. „Problém je, že tyto systémy pro automatické generování textů potřebují velké množství vstupních dat – příkladů, na kterých se učí. Což je opět pracné a časově náročné, když musíte napsat tisíce vět jako příklad,“ uvádí informatik-lingvista. A líčí: „Druhým problémem je, že vygenerované věty často nejsou přesné nebo obsahují chyby, které se dají jen velmi složitě najít. Věty sice vypadají velmi přirozeně, ale obsah neodpovídá zadání.“
Nejlepší z obou světů
Podle koordinátora Expertní skupiny pro granty ERC Zdeňka Strakoše má každý úspěšný ERC grant unikátní myšlenku, jak popisoval v rozhovoru pro magazín Forum. „Můj projekt si bere to nejlepší z obou světů – přirozený výstup a učení z neuronových sítí a k tomu explicitní kontrolu, jako je u šablon. Dnes se většina výzkumů generování přirozeného jazyka zaměřuje na čím dál větší a komplikovanější architekturu neuronových sítí. Já se v projektu naopak vracím trochu do minulosti – kromě neuronových sítí chci využít i explicitní sémantickou reprezentaci, která se dnes v neuronových systémech téměř nepoužívá, ale dříve byla s ručně psanými pravidly jedinou možností, jak generovat text,“ popisuje Dušek.
Cílem jeho pětiletého ERC projektu je tak využít neuronové sítě, ale omezit jim pole působnosti, aby se soustředily jen na generování co nejhezčích a nejplynulejších vět, ale nebyly zodpovědné za faktickou informaci. Ta bude pevně ukotvená v sémantické reprezentaci, která bude mít jasný zdroj a vygenerované věty půjde zpětně zkontrolovat.
„S tím souvisí i další podcíle našeho projektu, jak například poznat, že vygenerovaná věta je správně – budeme hledat nové evaluační metody. Dnes používáme referenční věty, které napsal člověk, a snažíme se je po slovech porovnávat s těmi automaticky vygenerovanými, což je velmi nepřesné – řada slov má podobný význam, ale v kontextu celé věty mohou znamenat zcela něco jiného. Také se budeme snažit o větší efektivitu využití dat a výpočetní síly – dnešní neuronové sítě potřebují k učení velké množství dat a obrovské množství výpočetního výkonu,“ dodává hlavní řešitel projektu. Kromě toho sémantická reprezentace umožní provádět matematické a logické operace, což dál zvětší flexibilitu a generátor například ze skóre sportovního zápasu sám pozná, kdo vyhrál a o kolik, a přizpůsobí tomu výstup.
Inspirace ze soutěží i germanistiky
„Inspirací pro vznik projektu byl můj postdoktorandský pobyt v Edinburghu, kde jsem se mimo jiné zabýval nepřesností automaticky generovaného jazyka. S kolegy jsme organizovali výzkumnou soutěž, kde účastníci za využití neuronových sítí měli vytvořit jednoduchý systém generující doporučení restaurací – aby se automaticky generovaly věty typu ‚Tato restaurace je v centru, vaří indickou kuchyni a je drahá.‘ A i v takto jednoduchých větách systémy dělaly mnoho chyb,“ popisuje Dušek.
„V soutěži z hlediska přesnosti paradoxně uspěly týmy, které místo neuronových sítí využily předpřipravených šablon. A od té doby jsem přemýšlel, jak využívat to nejlepší z neuronových sítích, ale zlepšit jejich přesnost,“ dodává.
K netradičnímu pojetí a využití sémantického přístupu mu pomohlo i to, že kromě lingvistiky na Matfyzu vystudoval i magisterskou germanistiku na Filozofické fakultě UK. „Již od gymplu mě bavilo programování a chtěl jsem dělat informatiku. Studium na Matfyzu mě moc bavilo, ale postupně mi začali chybět lidé. Většinu času jsme seděli u počítačů a něco jsme programovali a jelikož jsem Pražák, tak jsem ani nebydlel na kolejích, odkud se znala většina spolužáků,“ vzpomíná Ondřej Dušek, jehož kromě programování velmi bavila i němčina v podobě, kterou na Matfyzu učila Lenka Vachalovská.
„V té době začal mladší bratr studovat češtinu na Filozofické fakultě UK a byl naprosto nadšený z atmosféry a lidí, a tak jsem si řekl, že to také zkusím. A tak jsem si podal přihlášku na germanistiku, dostal jsem se a studium dokončil – byli jsme poslední ročník v pětiletém programu,“ líčí. „Ta kombinace byla skvělá, vše se to propojilo – měl jsem například fonetiku na Matfyzu i na FF UK. Kombinace matematického a lingvistického pohledu mi pomáhá i při dnešní práci na generování přirozeného jazyka. A filozofická fakulta mě také naučila psát, z čehož těžím dodnes,“ říká Dušek, jenž se spíše považuje za lingvistu – ve volném čase se teď například učí irsky. „Uvědomuji si, že mi to je v praxi k ničemu, ale moc mě to baví. Ten jazyk je kuriózní, je naprosto jiný než cokoli, co znám, a zároveň patří mezi indoevropské jazyky, takže tam stále lze nalézt řadu podobností. A také mám rád Irsko,“ směje se.
Ondřej Dušek působí na Ústavu formální a aplikované lingvistiky, jehož část sídlí v nové holešovické budově Matfyzu IMPAKT. Foto: Vladimír Šigut.
Cílem je univerzální generátor
Za ideálních podmínek a pokud se vše povede, bude výstupem ERC projektu univerzální nástroj, který bude schopný rychle se učit novým tématům konverzace. „Chceme, aby se náš generátor byl schopen učit pouze z pár příkladů a aby generoval správně; nevymýšlel si nebo nevynechával část informace. Také chceme, aby jednoduše generoval věty i v jiných jazycích než jen v angličtině,“ vyjmenovává Dušek. „Doufám, že se nám to povede a že tyto přístupy ke generování budou k dispozici i firmám a pro komerční použití. Těším se, až budu mít doma chytrého asistenta, na kterého budu moci mluvit česky, nebo si na webu otevřu aplikaci, jež mi dá shrnutí dnešních zpráv,“ říká.
O získání grantu se Dušek dozvěděl během předvánoční přednášky, kdy v rohu obrazovky zaregistroval notifikaci zprávy od svého studenta: Ten ERC grant, wow! „Já jsem samozřejmě o ničem nevěděl, pokračoval v přednášení a až po skončení jsem v e-mailu našel gratulaci od šéfky katedry docentky Hladké a několika kolegů. Ale stále jsem neměl žádné oficiální oznámení, to jsem našel až ve spamu,“ vzpomíná s úsměvem, jak získal informaci o finanční podpoře ve výši zhruba 1,5 milionu eur, tedy přes 35 milionů korun.
Jak úspěch hodnotí? „Těším se a vnímám jako obrovskou poctu, že jsem ten grant získal. Zároveň cítím velikou zodpovědnost. A mé poděkování patří všem, kteří mi k úspěchu pomohli. V žádném případě bych to nezvládl bez podpory svých doktorandů, kolegů a kolegyň a mnoha dalších lidí, kteří mi dávali zpětnou vazbu nebo se mnou trénovali závěrečnou přednášku. Systém ERC workshopů, jejichž vznik inicioval profesor Strakoš a podílí se na něm mnoho dalších lidí, je naprosto nedocenitelný a moc mi to pomohlo.“
Mgr. et Mgr. Ondřej Dušek, Ph. D. |
Vystudoval počítačovou lingvistiku na Matematicko-fyzikální fakultě UK a germanistiku na Filozofické fakultě UK. Dva roky strávil jako postdoktorand na Heriot-Watt University v Edinburghu. Nyní působí jako odborný asistent na Ústavu formální a aplikované lingvistiky MFF UK (ÚFAL), kde se zabývá výzkumem generování přirozeného jazyka a dialogových systémů (chatbotů), zejména s použitím strojového učení a neuronových sítí. |