Unikátní databáze češtiny slaví. Vznikat začala před 30 lety

velikost písma zmenšit velikost písma zvětšit velikost písma
Tisk

středa, 2. říjen 2024 10:35

Díky němu víme, kde se v češtině vzalo slovo eurohujer, kde se jí houska a kde si lidé k snídani kupují pletýnky či o jaká slova obohatili češtinu někdejší prezidenti Klaus a Zeman. Před třiceti lety se začal rodit Český národní korpus, obrovská databáze psané i mluvené češtiny, prostřednictvím které lingvisté mohou systematicky zkoumat jazyk, což pomáhá porozumět celé společnosti.

Český národní korpus je projekt a také výzkumná infrastruktura sídlící na Filozofické fakultě UK. Zásadním datem je pro něj 9. září roku 1994, kdy při FF UK vznikl Ústav Českého národního korpusu, jehož hlavním úkolem je péče o další rozvoj projektu.

Pod správou tohoto ústavu se pak pomalu začala po vzoru britského The British National Corpus vytvářet první elektronická databáze autentických psaných textů, aby v nich mohli zájemci vyhledávat slova a slovní spojení, a zobrazovat je v jejich přirozeném kontextu. V roce 2000 pak ústav představil vůbec první výsledek tohoto úsilí, korpus psané češtiny SYN2000.

Zásadní pro rozvoj Českého národního korpusu byl pak rok 2012, kdy byl zařazen do programu Ministerstva školství, mládeže a tělovýchovy na podporu velkých infrastruktur. Tento program umožňuje soustředit se na sběr dat a jejich zpřístupňování v otevřeném režimu všem, kdo o ně projeví zájem, z Česka i ze zahraničí. Dnes patří Český národní korpus mezi ty největší a nejpropracovanější na světě, jak podotkl zástupce ředitele Ústavu Českého národního korpusu Michal Křen (na snímku vpravo). „V 90. letech se s rozvojem počítačů začaly ve světě etablovat korpusy a spolu s tím se začala rozvíjet empirická lingvistika, která zkoumá jazyk na základě dat. Česká republika se k této vlně připojila,“ vysvětlil.

Deset miliard slov

Český národní korpus dnes zajišťuje přístup k více než deseti miliardám slov uspořádaných v korpusech synchronních i diachronních, mluvených, psaných, paralelních i jednojazyčných. „Snažíme se datově mapovat češtinu v co nejširším spektru modalit od psané, přes internetovou až k neformální mluvené češtině. Ta je od psané češtiny hodně odlišná, v korpusech máme hlavně neformální rozhovory, které lidé vedou v rodinách nebo třeba v hospodě. Vedle toho teď kolegové pracují na monitorovacím korpusu češtiny, který by měl pokrývat reprezentativním způsobem všechna vývojová stádia jazyka od 14. století do současnosti. Také jsme vytvořili rozsáhlý paralelní korpus překladů InterCorp. Zájemce v něm nalezne texty, jak se překládají z a do češtiny a dalších 60 jazyků,“ podotkl Michal Křen.

Pracovníci Ústavu Českého národního korpusu FF UK se starají nejen o sběr a zpracování jazykových dat, ale také o vývoj nástrojů, díky kterým mohou pak už sami lingvisté, studenti i široká veřejnost s databázemi pracovat, a to bezplatně. Díky Českému národnímu korpusu vzniklo velké množství vědeckých studií, článků,odborných prací i téměř 2 000 vysokoškolských kvalifikačních prací. Vyšlo také několik slovníků, včetně Akademického slovníku současné češtiny, nebo Velká akademická gramatika spisovné češtiny.

S rozvojem korpusů a aplikací pro jejich vytěžování šla ruku v ruce také popularizace empirického výzkumu jazyka. „Trvalo to poměrně dlouho, dnes už ale empirický přístup v jazykovědném výzkumu převažuje. Studenti lingvistiky jsou vedeni k tomu, aby s korpusem pracovali. Asi před pěti lety se nám podařilo dostat předmět Úvod do práce s jazykovými korpusy do společného základu na FF UK,“ upozornil Michal Křen.

O slovo se hlásí umělá inteligence

Ke třicátým narozeninám teď Český národní korpus nadělil svým uživatelům dárek v podobě nového přístupu ke korpusům, který práci s nimi ulehčí a zpřesní díky zapojení umělé inteligence. „Uživatel, který chtěl Český národní korpus využívat, si podle toho, co chtěl s korpusem dělat, musel nejdřív vybrat vhodné uživatelské rozhraní. Pro nově příchozí to nemuselo být úplně jednoduché, i když jsme se vždy snažili o to, aby všechny nástroje byly uživatelsky co nejpřístupnější. Kolega Jiří Milička proto teď vymyslel způsob, jak zapojit do práce s korpusy ChatGPT, který otázku od uživatele formalizuje a převede na sekvenci dotazů do Českého národního korpusu, jejichž výsledky pak sám vyhodnotí. Uživatel by tak měl dostat kvalifikovanou odpověď, čímž dojde k velkému zjednodušení práce s korpusy,“ uvedl Michal Křen.

Technologický pokrok se tak stále více propisuje i do práce týmu, který spravuje Český národní korpus. Rozvoj počítačové techniky vedl v prvé řadě k tomu, aby korpusy mohly vůbec vznikat, díky zvyšování výkonnosti počítačů pak mohlo korpusů přibývat a snesou také zátěž stále více uživatelů. Dnes se navíc o slovo hlásí umělá inteligence, která by se mohla časem efektivně zapojit i do samotného zpracování dat, a tím opět rozšířit možnosti Českého národního korpusu.

Mgr. Michal Křen, Ph. D.

Absolvoval Matematicko-fyzikální fakultu UK, obor informatika. Později pokračoval v doktorském studiu na Filozofické fakultě UK, kde se věnoval matematické lingvistice. Zabývá se korpusovou lingvistikou, variabilitou v jazyce, jazykovými změnami, složením a stavbou korpusů. V současné době je zástupcem ředitele Ústavu Českého národního korpusu FF UK.

Autor: Helena Zdráhalová

Foto: Michal Křen, Shutterstock

Magazín Univerzity Karlovy

Rubriky

Žánry

Témata

Unikátní databáze češtiny slaví. Vznikat začala před 30 lety

Související články

Digital humanities: Když nové technologie přináší nové příběhy

Panevová: Lingvistika už je na Matfyzu samozřejmostí

Rouškomil či haranténa. V čase koronaviru vzniklo 400 slov

Rubriky

Žánry

Témata