„Naším hlavním cílem je vyrobit jazykový model, který bude konkurencí stávajícím modelům, a navíc bude fungovat velmi dobře pro všechny evropské jazyky,“ uvedl profesor Jan Hajič z ÚFAL MFF UK, který má obří evropský projekt OpenEuroLLM na starosti. Spolupracují v něm výzkumné instituce, výpočetní centra i firmy z celé Evropy, přičemž Univerzita Karlova je jeho hlavním koordinátorem. Výsledkem této aktivity má být vytvoření velkých otevřených jazykových modelů nové generace, jež podpoří rozvoj evropských schopností v oblasti umělé inteligence.
„Je to pro nás radostný milník, protože jde o velmi rozsáhlý mezinárodní projekt zapojující celou řadu zemí a propojující evropský prostor na nové úrovni. Neméně důležité také je, že jde o spolupráci s aplikačními partnery napříč celou Evropou. Často slýcháme, že Evropa není ve srovnání s jinými oblastmi světa tím drakem v oblasti inovací, ale právě tyto projekty a práce pana profesora Hajiče, a vůbec vědecká činnost, kterou se může pyšnit Matfyz, přispívají k tomu, aby Evropa tím inovačním prostředím naplno byla,“ zahájila konferenci rektorka UK Milena Králíčková.
„Jsme pyšní na to, kolik projektů v poslední době získáváme,“ navázal na slova rektorky děkan MFF UK Mirko Rokyta s tím, že Matfyz řeší v současné době téměř 450 různých projektů – z toho téměř stovku zahraničních a také pět prestižních projektů ERC. „Nicméně projekt takového rozsahu, jaký získal pan profesor Hajič se svým kolektivem, je něco naprosto výjimečného. Podílí se na něm jedenáct zahraničních univerzit a institucí, pět zahraničních firem a čtyři významná výpočetní evropská střediska,“ upřesnil děkan.
„Je úžasné, že koordinace tak významného projektu takříkajíc ´spadla´ na nás. Ale ono to spadnutí není automatické, je potřeba, aby to spadlo na ty připravené, kteří jsou schopni takový projekt řešit a ukázat zahraničním partnerům, že mají na to, aby něco tak obrovského koordinovali,“ ocenil Rokyta a dodal, že hierarchie nadšení běží od ÚFALu přes vedení Matfyzu až na vrcholné příčky Univerzity Karlovy. „Myslím si, že umělou inteligencí by se měli zabývat především lidé, kteří jsou obdařeni inteligencí přirozenou a jsem přesvědčen o tom, že to lidé z ÚFALu jsou,“ shrnul Mirko Rokyta.
Jedním z hlavních specifik připravovaného modelu je jeho naprostá otevřenost od začátku do konce – od trénovacích dat až po finální model. „Díky tomu budeme schopni prokázat, že splňujeme všechny evropské regulace, což je důležité pro aplikaci těchto modelů v praxi,“ uvedl šéf Ústavu formální a aplikované lingvistiky MFF UK a hlavní koordinátor projektu Jan Hajič. „Center pro velkou kapacitu výpočtů je v Evropě šest a našimi partnery v projektu je pět z nich. Pevně doufáme, že tyto kapacity, jež získáme do konce tohoto roku a v příštích dvou letech, budou dostatečné na to, abychom byli schopni kvalitní model vyrobit,“ dodal profesor Hajič s tím, že projekt bude obhospodařovat 32+ jazyků. „Jedná se o dvacet čtyři jazyků v Evropské unii a osm jazyků zemí, jež vedou rozhovory o přijetí do EU. To plus znamená, že se budeme do modelu snažit zapojit i velké jazyky, které jsou důležité pro obchod mezi Evropou a zbytkem světa,“ upřesnil šéf ÚFALu.
„Dalším cílem je, aby se modely daly jednoduše používat i pro velký ekosystém menších a malých podniků v Evropě, které si buď nemohou dovolit platit za ty velké jazykové modely, nebo chtějí mít jistotu, že jim model bude stále k dispozici pro jejich potřeby, a že ho budou moci používat i lokálně, a ne jako placenou službu,“ doplnil kolegu z Matfyzu ředitel ALT-EDIC Edouard Geoffrois.
Projekt s pečetí STEP (Strategic Technologies for Europe Platform) staví na předchozích evropských projektech a zkušenostech partnerů. Využívá rozsáhlé kvalitní datové sady i pilotní jazykové modely, které už dříve vznikly. Konsorcium odstartovalo prvního února 2025, bude trvat tři roky a jeho financování zajistí Evropská komise v rámci programu Digitální Evropa. Dále je spolufinancován průmyslem a poskytovateli v jednotlivých zemích, včetně MŠMT ČR. „Velmi mě těší, že projekt tak obrovského významu a prestiže řeší Univerzita Karlova, konkrétně výzkumný tým Matematicko-fyzikální fakulty UK,“ ocenila Radka Wildová, vrchní ředitelka sekce vysokého školství, vědy a výzkumu Ministerstva školství, mládeže a tělovýchovy, které je zároveň také největším poskytovatelem finanční podpory pro rozvoj vědy a výzkumu v ČR.
„Byli bychom rádi, aby námi vyvinuté jazykové modely byly k dispozici co nejdříve, ale samozřejmě musí být kvalitní a srovnatelné se stávajícími modely. Projekt je na tři roky a doufáme, že během té doby vyvineme modely, jež budou konkurenceschopné nejenom s dnešními modely, ale i s těmi modely, jež budou k dispozici za tři roky,“ upozornil na závěr setkání hlavní koordinátor projektu OpenEuroLLM, profesor Jan Hajič z MFF UK.