Hajičovi: Tři generace matematických lingvistů na MFF UK

pondělí, 10. březen 2025 07:20

Byla to jedinečná příležitost. Na jednom místě, v Ústavu formální a aplikované lingvistiky (ÚFAL), se totiž sešli zástupci tří generací vědců – navíc z jedné rodiny. Ideální možnost poznat vývoj matematické lingvistiky na Matfyzu! I proto v pěti blocích, věnovaných osobnímu zájmu o obor, vědě, výuce, praxi a budoucnosti disciplíny, odpovídají legendární profesorka Eva Hajičová (EH), profesor Jan Hajič (JH) a doktor Jan Hajič junior (JR). Jeho otec, Hajič starší, nyní vede veliký evropský projekt OpenEuroLLM.

VS1 8202

Osobní cesty k oboru

Paní profesorko, vy jste nejprve studovala jazyky, češtinu a angličtinu. Jak jste se dostala až k matematické lingvistice? Co vás na tom tehdy zajímalo?

EH: To nebylo úplně přímočaré. Na střední škole jsem spíše tíhla k matematice, vlastně mě na gymnáziu přesvědčovali, abych ji studovala... Nelákala mě ale fyzika, tak jsem zvolila Filozofickou fakultu UK – a pak začala i učit na obecné škole a na průmyslovce. Šla jsem si poté, počátkem šedesátých let, poslechnout nějakou přednášku na FF UK, kde byla tehdy nástěnka a tam stálo, že se otvírá postgraduální kurz algebraické lingvistiky. To mě překvapilo, protože to bylo pro mě úplně novum!

Pak k tomu ještě přibyla tak trošku rodinná motivace, neboť můj manžel byl expertem přes průmyslovou automatizaci. On si mě dobíral, že můj obor je „k ničemu“, takže se obojí spojilo a řekla jsem si, že se podívám, co je ta algebraická lingvistika zač (směje se). A začala jsem do kurzu chodit; byl dobrý, se vším všudy, přednášel nám i profesor Petr Sgall, který nám opatřoval texty od Noama Chomského a podobně. Asi po roce jsem nastoupila do oddělení strojového překladu. Tehdy měly počítače ještě děrné pásky a štítky. Když to přeskočím, tak tady náš Honza doma na programovatelné kalkulačce generoval české věty k údivu hamburského profesora, který tomu nechtěl ani věřit! Honzovi bylo jen šestnáct.

Hezky jste předala slovo panu profesorovi. Takže vy jste se oboru asi vyhnout nemohl?

JH: Člověk jako vždy sleduje, co dělají rodiče, takže mě zajímalo obojí: jak průmyslová automatizace, co dělal tatínek, tak lingvistika. A za mě už byly počítače i trochu menší.

EH: Pořád si pamatuji, jak jsi mi jednou jako dítě rozházel všechny děrné štítky...

JH: Existovaly už ale také programovatelné kalkulačky. Takovou někdo dovezl profesoru Sgallovi, dnes už je programovatelné všechno, ale tehdy to byla velká věc. Byl to poměrně mocný nástroj, přitom trochu hračka, ale zlepšil jsem se a bavilo mě to. Na gymnáziu jsem chodil na matematickou větev, takže jsem v roce 1979 zvolil Matfyz. Tam už bylo i programování, základy computer science. Můj obor se jmenoval teoretická kybernetika a na diplomu z roku 1984 mám „samočinné počítače a programování“. Musím říci, že odborně byli lidé na MFF UK výborní – ať už na numerickou matematiku, lineární algebru, ale i na informatiku; profesor Kryl, jenž tu ještě donedávna vyučoval, profesor Malík, který byl zároveň i lékař a učil nás objektové programování, a další. Teorie množin, logika, to byly těžké věci, ale člověk se tím strašně moc naučil – a to i prakticky. Dělali jsme třeba skladový program pro Kovosvit Sezimovo Ústí.

Jane, vy jste doma slýchával samou chválu na MFF UK, takže cesta byla jasná?

JR: Hlavně jsem vnímal implicitní sílu Matfyzu tím, že obě předchozí generace se toho stále aktivně účastnily a věnovaly tomu veškerou pracovní energii. Ano, kontakty s počítačovou lingvistikou jsem měl už na gymplu. Vzpomínám, že jednou tady profesor-otec spojil dovolenou s odbornou konferencí. Mně bylo čtrnáct, ale potom, co jsme dva týdny chodili i s bráchou po Alpách, nás čekal týden v Ženevě, která nebyla tak pěkná jako hory, a tak jsem tátu ukecal, že mě propašovali na konferenci, kde jsem dostal i visačku a dokonce jsem tam i položil na keynote speakera dotaz... Mám pocit, že to muselo vypadat strašně divně!

EH: To můžu potvrdit, bylo to roku 2004, byla jsem tam a poslouchala přednášku, kterou měl profesor Nagao, kapacita strojového překladu a předseda mezinárodní organizace komputační lingvistiky! Prostě člověk, ke kterému všichni vzhlíželi, a najednou tam zvedl čtrnáctiletý kluk ruku, ale měl cedulku, tak ho museli brát vážně. A brali: jeho otázka byla rozumná.

JR: Mě ten obor zajímal, protože to bylo všechno doopravdy. Měl jsem intenzivní pocit, že to je ona hranice znalostí, poznání, a teď mám šanci se potkat s něčím novým. Rozuměl jsem tomu odborně strašně málo, ale byla to výzva. Chtěl jsem to pochopit. A Matfyz pak byl mou první volbou. Šel jsem na obecnou informatiku, která byla nejvíc teoretická, což mě bavilo jaksi víc... i když jsem pak stejně musel leccos ze softwarového inženýrství dohánět.

prof. PhDr. Eva Hajičová, DrSc.
Jazykovědkyně, bohemistka a anglistka, zabývá se obecnou a komputační lingvistikou, sémantikou a diskursem. Vystudovala původně češtinu a angličtinu na FF UK, po roce 1968 začala působit na MFF UK. Je autorkou více než 500 studií s mnoha tisícovkami citací. Za svoji výzkumnou a pedagogickou činnost obdržela řadu poct: Hlávkovu cenu, Antonio Zampolli Prize či medaili Smithových od Britské akademie.

VS1 8393Fascinace vědou a výzkumem

Pojďme k vědě. Vraťme se do šedesátých let, kdy zmíněný Chomsky, Fillmore a další „modernizovali“ lingvistiku. Paní profesorko, co vás tehdy zajímalo, velké teorie?

EH: Formální lingvistika a její přístup byly novum. Pro nás bylo zvláště skvělé, že předválečná Pražská lingvistická škola měla a má úžasnou pověst. Inspiroval nás strukturalismus, zajímala mne i významová stránka jazyka, jeho společenské funkce. Viléma Mathesia a další jsem již nezastihla, ale tvaroval nás profesor Bohumil Trnka, výjimečná osobnost, a také profesor Josef Vachek; slovníky jsme jako anglisté řešili s profesorem Ivanem Poldaufem a podobně. Původně jsem působila na FF UK, věnovala se výzkumu v tamní jazykové laboratoři, odkud nás však po roce 1968 vyhodili... Na Matfyzu jsem od roku 1972. Získali jsme tam azyl a šanci, jak se uchytit, za což musím ještě i dnes kolegům poděkovat. Bylo nás patnáct vědců, ale nesměli jsme přijít společně jako „laboratoř“, nýbrž jako jednotlivci rozdělení do tří kateder. A vezměte si, že já, vlastně anglistka, jsem byla nově na katedře numerické matematiky MFF UK! Později, pokud jde o jazyková data, i tam náš výzkum nezaostal, spíše naopak. Už v roce 1995 jsme, v podstatě jako druzí na světě, inspirováni projektem PennTreebank University ve Filadelfii, koncipovali projekt Pražského závislostního korpusu PDT, tedy počítačového korpusu češtiny teoreticky podloženého formální teorií funkčního generativního popisu, s nímž pracujeme v popisu češtiny. Tento korpus se postupně rozrostl až na téměř čtyři miliony lingvisticky detailně a komplexně analyzovaných slov v kontextu ucelených dokumentů, psaných i mluvených.

Pane profesore, co lákalo vás jakožto výzkumné téma?

JH: Musím říct, že ze začátku mě nejvíc zajímaly aplikace, protože v sedmdesátých letech se hodně pracovalo na strojovém překladu. Šel jsem do Výzkumného ústavu matematických strojů (VÚMS), kde se chystaly i česko-ruské překlady, logicky, což byl velký a komplexní projekt. A mě zajímalo, jestli se to vlastně dá udělat. Byla to kombinace programování a přípravy jazykových dat. V roce 1991 mě pozval profesor Jelínek do amerického IBM, kde jsem dělal na překladu přirozených jazyků. Využívali už machine learning a měli kliku, že v Kanadě se překládá mezi francouzštinou a angličtinou, takže měli i spoustu dat; to nikde jinde nebylo. Užívalo se hodně statistiky. Od roku 1993 jsem zpět na Matfyzu, vyvíjíme překladače (například překladače provozované LINDAT/CLARIH-CZ porazily v některých oborových soutěžích třeba i DeepL a další – pozn. redakce) a jejich kvalita už je úplně někde jinde, protože se metody posunuly od čistě statistických do neuronových. A dneska to dělají nejlépe velké jazykové modely (LLM), na nichž má obrovský podíl Tomáš Mikolov.

A Jane, kde jste se našel, když už jste tohle všechno znal – přímo od babičky nebo táty?

JR: Já se naopak ztratil (směje se). Když jsem začal tady na ÚFAL dělat a vypomáhat Kateřině Veselovské, dnes doktorce Lesch a velké osobnosti české informatiky, na jejím doktorandském projektu s tématem analýzy sentimentu — subjektivních postojů — v českém textu. To mi přišlo aplikačně zajímavé; že to je něco, co ještě moc dobře nefunguje. Pak jsem dělal věci jako multimodální kombinace obrázků, diplomku, začátek doktorátu, ale to „zažehnutí“ už po deseti jedenácti letech moc nehořelo. Ale byl jsem na stáži v Apple, kde jsem měl štěstí na výborný mentoring. Byli tam skvělí vedoucí, se kterými se dalo bavit o věcech, které nesouvisely přímo s náplní. Přijel jsem zpět s tím, že chci dělat něco úplně jiného – a že se chci věnovat hudbě. Muziku jsem dělal ve vlnách různě vášnivého zájmu: byl jsem chvilku na konzervatoři na klavíru, trochu delší chvíli jsem byl na kompozici JAMU, kvůli čemuž jsem jeden rok na MFF jen tak tak dodělával kredity, aby mě „nevylili“. A na studiích skladby jsem zjistil, že největší otravou je přepisovat skladby do počítače poté, co je napíšete v ruce, aby je někdo byl ochotný hrát. Trvá to strašně dlouho, je to piplačka...

Ale to by mělo jít zautomatizovat, ne? Proto jsem začal pracovat v Ph. D. na rozpoznávání zápisů. Měl jsem zase kliku, protože můj školitel Pavel Pecina pokrčil rameny a usoudil, že „asi dobrý“. On byl zrovna spoluřešitelem projektu více fakult, který se hodně snažil právě o multimodalitu, takže noty, hudba a text jako kombinace informací různého typu byly pro ně zajímavé. A po doktorátu se navíc věnuji muzice, staré hudbě a digitálním edicím, a jsem rád, že je to zase něco nového – možná podobně jako kdysi byla matematická lingvistika.

VS1 8283

Umění zaujmout učením

Pojďme k výuce matematické lingvistiky. Paní profesorko, jaké to bývalo, když jste začínala?

EH: Na FF UK jsme moc neučili. Byli jsme odborné oddělení katedry bohemistiky, takže se výuka od nás víceméně nečekala. Pracovali jsme na různých projektech. A když jsme přišli na MFF UK, tak jsem zase nesměla učit, i kdybych chtěla, protože jsme byli nekomunistické a „špatné živly“. To trvalo dlouho. Mohli jsme až začátkem osmdesátých let, například vést nějakou diplomku, kterou někdo „spolehlivý“ zastřešil. Normálně jsem přednášela až Úvod do formální lingvistiky nebo Reprezentace znalostí. Po roce 1989 mne kolegové z Filozofické fakulty poprosili, že tam tohle nikdo nedělá, takže jsem učila dokonce v povinném kurikulu anglistiky a romanistiky, pak přibyla i obecná lingvistika. Zajímavé bylo, že šlo o přednášky otevřené i pro studenty Matfyzu: studentů anglistiky tam bylo třicet, chtěli se učit anglicky a tohle je nezajímalo, takže byli děsně otrávení, kdežto pár dalších lidí z MFF UK teorie jazyka opravdu hluboce zajímala. Ptali se, měla jsem skutečně potěšení z výuky. A samozřejmě mě velmi těšilo vést na Matfyzu řadu doktorandů, tedy přesněji řečeno spíše doktorandek.

prof. RNDr. Jan Hajič, Dr.
Matematický lingvista, specializuje se na tvarosloví, strojový překlad přirozených jazyků či tvorbu jazykových dat pro strojové učení. Vystudoval obor samočinné počítače a programování na MFF UK (1984). V letech 1991 až 1993 pracoval jako výzkumník v newyorské centrále společnosti IBM pro výzkum. Od roku 1993 působí v pražském ÚFAL, který i vedl. Získal řadu cen, mimo jiné univerzitní Donatio.

 VS1 8440Vy jste, pane profesore, učil až po roce 1989. Jací bývali a jsou studenti vašeho oboru?

JH: Začal jsem učit základy: formální zpracování tvarosloví, což jsem řešil i v disertaci. Už kdysi jsme s kamarádem vytvořili spell-checker, který jsme udali i komerčně. Ale doopravdy učím od roku 1995, vedl jsem i diplomky. Učil jsem základní předmět, do něhož jsem se snažil zabudovat statistické metody a strojové učení, zadával jsem praktické úkoly. A studenti v tom viděli potenciál, přišlo jim to jako zvláštní větev studia. My ještě neměli svůj obor ani v magisterské formě, takže to bylo motivováno jen podle osobního zájmu – přitáhlo to lidi na diplomky i doktoráty. Později přímo na jiný obor umělá inteligence chodilo tak čtyřicet lidí, a k nám tak tři s hlubokým zájmem. Ovšem s prudkým rozvojem AI a velkých jazykových modelů se zájem změnil, slovo language už je „sexy téma“. Tenhle rok už je ten poměr půl na půl. Pro nás je to skvělé. Třeba kolega, který tudy právě proběhl, už má každý rok asi 300 studentů, protože vyučuje hluboké učení. Je to atraktivní téma, dá se dobře aplikovat, takže téma strojového učení a jazykových modelů je teď něčím, čím bylo dříve programování.

A jak vidíte studenty vy, Jane? Jak budou vypadat matematičtí lingvisté?

JR: Já vůbec nevím (směje se). Začal jsem učit letos, teď jsem odučil první přednášku. A to hudební informatiku, základy výpočetního zpracování hudby, která je nyní v té pozici úplně nepovinného předmětu, kam chodí jen lidi, které to opravdu zajímá, takže tam není těch třicet otrávených posluchačů. Těžko říct, kam to povede. Teď letí generování hudby, což zajímá tak polovinu lidí, kteří chtějí dělat diplomky nebo tvořit hudbu. Zajímavé – a zatím nedotažené – je modelování lidských emocí, určitá formalizace, když chcete třeba klasifikovat nějaký segment muziky: neumí se dobře popsat, jak se lidi cítí, když poslouchají hudbu.

VS1 8377

Vysoce užitečná lingvistika

Dotkl jste se využití vaší práce. Jak to bývalo s praxí v počátcích, paní profesorko?

EH: Pozor, pozor. I my jsme už tehdy museli ukazovat, že jsme coby lingvisté užiteční. I tehdy, řekněme na začátku sedmdesátých let, bylo spojení s praxí považováno za důležitý aspekt. A nás to zachraňovalo, protože jsme museli neustále dokazovat, že máme důvod, proč existovat. To byla vysloveně existenční záležitost. Existovaly dva státní plány, jeden aplikační a druhý čistě vědecký, a my se museli uchytit v obou. Vzpomínám, že jsme dělali i projekt pro Sigmu Olomouc, která měla dokumentační středisko, a chtěli, aby náš projekt z jejich článků a popisů pomohl dělat abstrakta – strojově a automatizovaně.

A pane profesore, jak vnímáte vy pozdější tlak na praxi, na využití toho, co umíte?

JH: Formální tlak na to, abychom dělali něco prospěšného – řekněme ve smyslu třetí role univerzit –, známe, ale mne osobně to zajímalo od samého začátku. Zajímaly mne aplikace, využití. Vytvářeli jsme automatizované spell-checkery, slovníky, právní informace a sborníky ASPI a od devadesátých let to rozvíjeli na fakultě dál. Používalo se to všude možně. Vezměte překladače, jimž se věnoval a věnuje docent Ondřej Bojar, který je dnes slavný, protože jsme se podíleli i na nástrojích, které se celosvětově používají. Vyhrávali jsme i soutěže, takže takové aplikace jsou rozhodně zajímavé. A dnes jsme u LLM, které se rychle učí, zlepšují.

MgA. et Mgr. Jan Hajič, Ph. D.
Matematický lingvista a muzikolog, zabývá se optickým rozpoznáváním hudby (notového zápisu), digitální muzikologií, kde zkoumá i gregoriánský chorál pomocí bioinformatických metod, či generováním hudby v omezujících podmínkách. Kromě MFF (obhájené Ph. D. v roce 2019) absolvoval také JAMU, takže propojuje matematiku s humanitními vědami. Školí a vede několik projektů, třeba Genome of Melody.

VS1 8478Pane doktore, vy sbližujete humanities s matematikou. Co to může přinést?

JR: Způsob, jímž velké modely začaly být užitečné pro takřka jakoukoliv manipulaci jazyka, nenechává ani moc prostoru dělat aplikace jinou cestou. Vyostřil se rozdíl mezi řešením problémů a hledáním poznání, mezi tím, co je engineering a co science. Když jsem zvažoval, jaký zvolím výzkumný směr, vybral jsem právě výpočetní humanitní vědy, tedy muzikologii, kde jde více o tu science. I z toho ale mohou vzniknout zajímavé a překvapivé aplikace.

O smyslu a významech jazyků

A výjimečně navážu znovu otázkou hned na vás, Jane. Co s bádáním dál?

JR: Neplatí to jen o tom mém „čtení“ hudby, ale myslím si, že zajímavější a vlastně i dlouhodobě udržitelnější výzkumné směry budou nakročeny směrem k poznání. Místo řešení problémů se snažme dozvědět něco zcela nového o světě. Nemusí to být úplně blue-sky research nebo jak se česky ošklivě říká „základní“ výzkum, ale má jít o pochopení.

Pane profesore Hajiči, jak vidíte budoucnost vy?

JH: Domnívám se, že úplně to samé platí pro lingvistiku, a teď nemyslím tu formální nebo specializovanou, ale lingvistický výzkum jako takový, jako celek. I ve výzkumu platí heslo, které všichni znají: „Peníze jsou vždy až na prvním místě“. Když se žádalo o projekty od sedmdesátých let až donedávna, tak oním raison d'être grantových žádostí všude – v Česku i Americe – bylo, že jste dodávali, k čemu by to bylo dobré v aplikačním smyslu. I proto se toho ve skutečně základním výzkumu – jak funguje jazykový systém u lidí – zas tolik nestalo. A já doufám, že teď, když jsou aplikace do značné míry vyřešené a světem se valí velké modely s AI, tak by mělo dojít i na fundamentální výzkum v lingvistice, která si na sebe už „vydělala“. A jazykové modely, jimž jazykověda tolik pomohla, by mohly pomoci jí.

Poslední otázku musím položit i vám, dámě a legendě oboru. Co očekáváte vy?

EH: Můžu s tím, co říká můj syn, jen souhlasit. Možnosti jsou obrovské. Nové postupy, metodologické nebo technické, pomůžou lingvistice jako takové. Dříve se v nadsázce a žertu říkávalo, že lingvistika se dělá na Matematicko-fyzikální fakultě UK, ale to je trošinku nespravedlivé. Nesporná je mezioborovost. A ještě tady nepadlo slovo význam, podstatná totiž musí být i rovina sémantická, hledání významu toho, co sdělujeme. Snažme se dělat něco, o čem ještě ani nevíme, k čemu to je. Ale jak často vidíme v jiných oborech vědy, takhle to funguje – hledejme nové věci a souvislosti, které povedou k něčemu velkému.

Autor:
Foto: Vladimír Šigut

Sdílejte článek: