Data science. Analýzou dat k lepšímu pochopení světa

Tuesday, 04 March 2025 06:20

O oboru data science se někdy mluví jako o nejzajímavějším povolání 21. století. Data jsou totiž všude kolem nás a jejich využíváním dokážeme zlepšovat život jednotlivcům i celé společnosti. Že se jedná o velmi komplexní a pestrý obor, který má budoucnost, potvrzuje i Irena Holubová z Matematicko-fyzikální fakulty UK a Dominik Matula ze společnosti Profinit.

HYN 3134

Co přesně si představit pod pojmem „data science“?

Dominik Matula (DM): Jedná se o velmi mezioborovou disciplínu, která kombinuje metody ze statistiky, strojového učení, datové analýzy, ale i interpretace a vizualizace, s cílem získávat znalosti a poznatky často z velmi velkých a komplexních souborů dat. Data science je vlastně mostem mezi lidmi a informacemi obsaženými v jejich datech. Datoví vědci pomáhají toto bohatství najít a vytěžit.
Irena Holubová (IH): Datový vědec je tak trochu renesanční člověk, respektive desetibojař, který se k výsledkům dostává kombinací rozličných expertíz. Často na jednom projektu pracuje více lidí, kdy každý zastává určitou oblast datové analýzy.

Spolupráce Matfyzu a společnosti Profinit začala díky společnému projektu podpořenému Technologickou agenturou ČR. Jaká byla očekávání?

DM: Profinit má ve svém mottu: „We are professionals in IT“, a toho se snažíme dosahovat nejen kontinuálním vzděláváním zaměstnanců, ale i ve spolupráci s vysokými školami. Právě spolupráce s akademickým prostředím je pro rozvoj našich znalostí, tak abychom dokázali poskytovat lepší služby našim zákazníkům, naprosto zásadní.
IH: Naší motivací zase bylo propojit naši akademickou expertizu v oblasti datové analýzy s cennými zkušenostmi z praxe a tuto kombinaci aplikovat na reálná data.

Analyzovali jste silně anonymizovaná bankovní data. Co přesně bylo cílem?

IH: Chtěli jsme prozkoumat, co je možné pomocí algoritmů z oblastí jako je podobnost dat nebo analýza sociálních sítí zjistit ze základních bankovních dat o uživatelích, aby jim banky mohly poskytovat lepší služby.
DM: Banky typicky řeší dvě věci – jak správně odhadnout riziko a jak svým klientům nabízet lepší služby, ideálně šité na míru jejich potřebám. Jenom tak budou jejich klienti spokojení a v bance zůstanou. Nikdo nechce být zaplavován nerelevantní reklamou. Když si ale koupíte například letenky, asi se chystáte někam do zahraničí. Pak vám nabídka cestovního pojištění přijde vhod. Takových indicií může být celá řada. A to se zatím bavíme pouze o jednotlivých událostech. Ještě zajímavější bylo studovat přímé či nepřímé interakce klientů a stavět z nich pomyslnou pseudo-sociální síť.

HYN 3007

Co vše se vám podařilo zjistit?

DM: Je potřeba zdůraznit, že data byla opravdu velmi anonymizovaná, ale i tak se dají zjistit zajímavé souvislosti. Veškeré bankovní aktivity vytváří určité typy vztahů, ze kterých, zvlášť když se opakují, lze leccos usuzovat. Pokud zajdeme na oběd do místní restaurace a oba zaplatíme krátce po sobě kartou, je to evidence, že máme něco společného, že jsme třeba kolegové. Zatím velmi slabá evidence, mohla to být náhoda. Pokud se to ale bude tu a tam opakovat, můžeme si tím být víceméně jistí. A takových příkladů je celá řada. Velice zajímavá byla schopnost detekovat domácnost – to je pro banky velmi užitečné, umožňuje jim to chránit své klienty před předlužením.
IH: Stejně tak se dají sledovat určité režimy výběru z bankomatů – například bankomat u pražské Zoo je nejvíce využíván o víkendech, ty blízko barů zase v noci a vybírají z nich primárně určité skupiny osob – rodiny s dětmi nebo naopak mladí, co se chodí bavit. Naopak na hlavním nádraží vybírají téměř všichni. Z těchto všech informací se dají rekonstruovat sociální vazby a predikovat klientské chování. Toto byl zatím jen výzkumný projekt, na kterém jsme ale ukázali, že by něco takového šlo.

Jako „vedlejší produkt“ spolupráce vznikl i předmět Data Science, o který mají zájem studenti napříč fakultami. Jak přesně probíhá?

IH: Společný předmět skutečně vůbec nebyl v plánu, ale při řešení projektu jsme zjistili, že vzájemná spolupráce Matfyzu a Profinitu perfektně funguje. Letos proběhl již čtvrtý ročník kurzu a počty studentů každoročně rostou. Kombinace zkušeností z reálného světa s akademickým světem je pro obě strany obohacující. Nadpoloviční většinu přednášek mají kolegové z praxe, kteří sdílí reálné zkušenosti, které ve skriptech nenajdete. A my chceme ukázat celou pestrost oboru. Součástí kurzu je i řešení vlastního data science projektu, na který studenti dostávají podrobnou zpětnou vazbu.

Jak vidíte budoucnost oboru data science?

DM: S rozvojem nových technologií, včetně umělé inteligence, si myslím, že bude docházet k větší dostupnosti a využívání dat. Data jsou totiž neuvěřitelně bohatý zdroj informací, který ještě stále není dostatečně využíván. Stále je mnoho oblastí, kde se s analýzou dat vůbec nepracuje. Zároveň si nemyslím, že by technologie mohly plně nahradit datové vědce – stále bude potřeba lidská expertiza, která dokáže zvolit vhodný nástroj nebo si pokládat ty správné otázky, a to získáte vzděláním a praxí.
IH: Někdy si lidé neuvědomují, kolik volně dostupných dat je o nich vlastně k dispozici. Ale určitě by to neměl být žádný strašák - pokud se chováte zodpovědně, tak se není čeho obávat. V rámci EU nás navíc chrání i řada nařízení. Naopak větší využívání dat přinese výhody jednotlivcům, ale i firmám, které budou nabízet kvalitnější a více personalizované služby.

HYN 3022

doc. RNDr. Irena Holubová, Ph. D. 
Působí na Katedře softwarového inženýrství MFF UK. Jejím hlavním výzkumným zaměřením jsou moderní databázové systémy a zpracování velkých, zejména multi-modelových dat. Je autorkou více než 130 odborných publikací, za které získala několik ocenění, a (spolu)řešitelkou grantových projektů financovaných Grantovou agenturou ČR a Technologickou agenturou ČR. Absolvovala výzkumné stáže na La Trobe University v australském Melbourne a na University of Helsinki ve Finsku. Působila také jako hostující profesor na Regensburg University of Applied Sciences a University of Passau v Německu 
Mgr. Dominik Matula 
Absolvent MFF UK se zaměřením na matematiku. Od roku 2017 působí jako Data Scientist ve společnosti Profinit. Věnuje se především dynamické cenotvorbě a detekci podvodného chování. Mezi jeho oblíbené oblasti patří vizualizace dat. Profinit je přední dodavatel IT služeb. Pro své zákazníky pracuje na projektech v oblasti vývoje softwaru, AI, data science a information managementu v osmi evropských zemích.
Author: Pavla Hubálková
Photo: Hynek Glos