IMPERATRIX

Izboljšanje ponovljivosti eksperimentov in večkratne uporabe raziskovalnih izsledkov pri analizi kompleksnih podatkov

Trajanje projekta

1. 7. 2018 - 30. 6. 2021

Izvajalec

Financer

Povzetek projekta

Napredek v znanosti se povečini opira na tezo zanesljivega znanstvenega odkritja, pri čemer mora biti izpolnjen pogoj, da je izvedba neke raziskave pravilna in da jo lahko ponovijo drugi znanstveniki. Da bi povečali ponovno uporabnost raziskovalnih izsledkov, kot so razviti modeli in pridobljeni podatki, morajo biti ti najdeni, dostopni, interoperabilni in ponovno uporabni. Bistvo FAIR načel je v tem, da zagotavljajo ponovno uporabnost izsledkov in da bodo ti dejansko uporabljeni s strani drugih, s tem pa pridobivajo na lastni veljavi. Generalni direktorat za raziskave in inovacije EK je ponovno uporabnost izsledkov izpostavil kot eno od svojih prioritet, kar je povzročilo naglo uvajanje FAIR načel s strani različnih interesnih skupin. Izsledki morajo zato biti reprezentirani v kontekstu okvira, ki omogoča računalniško obdelavo. Med trenutno najbolj priljubljenimi rešitvami izmenjave podatkov, ki sledijo zahtevam FAIR, so tehnologije semantičnega spleta.

Metode analize kompleksnih podatkov, ki izvirajo iz strojnega učenja ali podatkovnega rudarjenja, se vse pogosteje uporabljajo v različnih znanstvenih domenah. Z namenom zagotavljanja ponovljivosti eksperimentov in ponovne uporabe raziskovalnih izsledkov moramo formalno opisati vse entitete, ki so vključene v proces analize, in jih skupaj z opisi shraniti kot digitalne objekte v strukturo tipa, kot je podatkovna baza. Posedovanje “semantično ozaveščenih” skladov entitet, namenjenih za analizo kompleksnih podatkov, ki je izboljšana z zmožnostjo avtomatiziranega sklepanja, se lahko izkaže za veliko prednost pri izboljšanju ponovljivosti eksperimentov ter ponovne uporabe izsledkov, na ta način pa se tudi močno približamo FAIR načelom.

Glavni cilj predlaganega projekta je izboljšanje ponovljivosti eksperimentov ter ponovne uporabnosti raziskovalnih izsledkov v analizi kompleksnih podatkov. Omenjeni cilj bomo dosegli s kombiniranim pristopom, pri čemer bomo uporabili analizo kompleksnih podatkov, ontologije znanosti, semantičnega spleta ter induktivnih podatkovnih baz. V ta namen bomo razvili modularni sistem za izvrševanje eksperimentov analize ter za semantično označevanje, shranjevanje, povpraševanje ter ponovno uporabo izsledkov. Za doseganje cilja bomo: (1) zasnovali, implementirali in naselili ontologije za analizo kompleksnih podatkov, ki bodo nato uporabljene za semantično označevanje, (2) zasnovali in implementirali prototipni sistem za shranjevanje semantično označenih podatkov, eksperimentov in modelov; (3) razvili strategije povpraševanj in preizkusili zmožnosti povpraševanja prototipnega sistema ter (4) preizkusili delovanje novega razvitega sistema v primeru različnih scenarijev z več področij (strojno učenje, znanosti o življenju, raziskave vesolja, kemijska informatika).

Predlagane raziskave v okviru projekta se bodo bistveno približale k najnaprednejšim pristopom v domeni računalništva, zlasti s področja strojnega učenja in podatkovnega rudarjenja, znotraj tega pa še posebej problematike analize kompleksnih podatkov. V ta namen bomo razvili novo arhitekturo semantično ozaveščenega eksperimentiranja, kar bo bistveno izboljšalo shranjevanje, ponovno uporabo, revidiranje in povpraševanje modelov, ki so jih ustvarile različne analitične metode. To je pomembno predvsem za aplikacijo v domenah, ki se pri svojem delu pretežno opirajo na analitična orodja. Projekt bo tako pomemben tudi za širši kontekst avtomatizacije znanosti o podatkih. Vsi eksperimenti bodo ponovljivi, saj bodo izvedeni v natančno dokumentirani obliki, pri tem pa bo uporabljena dostopna arhitektura, ki takšno analizo omogoča. Trenutne eksperimentalne arhitekture so namreč uporabne zgolj za zelo omejeno vrsto nalog, pri tem pa niso zmožne opravljati še nalog povpraševanja, skupinskega vrednotenja in revizije modelov, kar predstavlja resnooviro za nadaljnji razvoj. V širšem družbenem kontekstu bo projekt, ki ima velik praktični pomen, bistveno povečal raziskovalni ter inovacijski potencial Slovenije.

Projektna skupina

doc. dr. Panče Panov - vodja projekta

Podoktorski sodelavec na Institutu Jožef Stefan

Panče Panov is a postdoctoral researcher at the Department of Knowledge Technologies, Jožef Stefan Institute, Ljubljana, Slovenia. He completed his PhD in 2012 in the area of data mining at the Jožef Stefan International Postgraduate School, Ljubljana, Slovenia. His thesis concerned the design and implementation of a modular ontology for the domain of data mining. His research interests are related to machine learning, data mining, the knowledge discovery process, and applying ontology in these domains. His contributions include developments of ontologies for describing the domain of data mining and the process of knowledge discovery, which can be employed in various applications. He was actively involved in several EU-funded projects in the past (IQ, SUMO) and is currently involved in the MAESTRA project. In addition, he participated in several projects financed by the Slovenian research agency and one bilateral project between Slovenia and Croatia. He is co-editor of the book entitled “Inductive databases and constraint-based data mining” published in 2010 by Springer. In 2014, he was program co-chair of the International Conference on Discovery Science (2014) and co-editor of the proceedings of the conference published by Springer. Finally, in 2015 he a co-editor of a special issue of the Journal Machine Learning on Discovery Science.

dr. Dragi Kocev

Znanstveni sodelavec na Institutu Jožef Stefan

Dr. Dragi Kocev je znanstveni sodelavec na Institutu Jožef Stefan. Med glavna področja njegovega raziskovanja spadajo razvijanje metod za napovedovanje strukturnih vrednosti, ki dosegajo najučinkovitejšo oziroma najnaprednejšo izvedbo na različnih aplikativnih področjih (kot so denimo napovedovanje funkcije genov, alternativna uporaba zdravil, poraba energije, vegetacije in modeliranje habitatov). V njegovi obširni bibliografiji, ki vključuje članek v eni izmed najbolj priznanih znanstvenih revij strojnega učenja, zasledimo tudi članke z aplikativnih področij. Bil je tudi eden izmed koordinatorjev FP7 FET projekta MAESTRA kakor tudi član zmagovite ekipe raziskovalcev v okviru tekmovanja iz analize podatkov z misije Mars Express, ki ga je organizirala Evropska vesoljska agencija (ESA). Njegovo znanje je ključno pri izvajanju vseh delovnih nalog v okviru DS4 in DS1.

dr. Nikola Simidjievski

Podoktorski sodelavec na Institutu Jožef Stefan

Dr. Nikola Simidjievski je podiplomski sodelavec na Institutu Jožef Stefan. Njegovo osrednje raziskovalno področje predstavlja razvijanje metod za avtomatsko modeliranje kompleksnih dinamičnih sistemov in njihovo aplikacijo na različna področja, kot so sistemska ekologija, sistemska biologija, medicina in nevroznanost. Prav tako ima široko znanje s področja uporabe in operiranja HPC sistemov. Bil je eden izmed ključnih agensov in članov zmagovalne ekipe raziskovalcev s področja tekmovanja analize podatkov misije na Mars, Mars Express, ki ga je organizirala Evropska vesoljska agencija (ESA). Njegovo znanje bo ključno za izvajanje delovnih nalog za uporabo razvite arhitekture na različnih področjih v okviru DS4.

doc. dr. Petra Kralj Novak

Podoktorska sodelavka na Institutu Jožef Stefan

Dr. Petra Kralj Novak je podoktorska sodelavka na Institutu Jožef Stefan. Njeno raziskovalno delo se navezuje na računalništvo in odkrivanje znanja iz podatkov. Njeni aktualni raziskovalni interesi so osredotočeni na analizo družbenih in mainstream (množičnih) medijev, še posebej na posredovanje stališč in čustvenih reakcij, napačnih informacij ter manipuliranja ugleda delujočih agensov. Njene raziskave so objavljene v osrednjih znanstvenih revijah in konferencah s področja strojnega učenja in različnih interdisciplinarnih pristopov. Prav tako je izkušena v reševanju problemov v okviru SQL in No-SQL podatkovnih bazah, vključno z grafičnimi podatkovnimi bazami (Neo4J) in dokumentovskih podatkovnih bazah (ElasticSearch, MongoDB). Bila je sodelavka več državnih in evropskih raziskovalnih projektov, med drugim Dolfins, Simpol, Multiplex, FOC idr. Njeno znanje bo ključno za izvajanje DS2.

prof. dr. Sašo Džeroski

Znanstveni svetnik na Institutu Jožef Stefan

Prof. dr. Sašo Džeroski je znanstveni svetnik na Institutu Jožef Stefan in na CipkeBip centru odličnosti. Prav tako je redni profesor na Mednarodni podiplomski šoli Jožefa Stefana. Njegovo raziskovalno področje se povečini navezuje na strojno učenje in podatkovno rudarjenje ter njuno aplikacijo . Je soavtor in sourednik več kot deset knjižnih izdaj referenčnih publikacij. Sodeloval je pri številnih mednarodnih raziskovalnih projektih (povečini financiranih s strani EU); izvedbo nekaterih projektov je tudi koordiniral (FP6 FET IQ, FP7 FET MAESTRA). Trenutno je eden izmed ključnih raziskovalcev v okviru projekta FET Flagship Human Brain Project ter Interreg projekta TRAIN ter vodja dveh državnih projektov, ki jih financira ARRS. Njegovo široko raziskovalno delo in znanje s področja managementa bo dragocen doprinos v številnih nalogah.

Ana Kostovska

magisterska študentka na Mednarodni podiplomski šoli Jožefa Stefana

Ilin Tolovski

magisterski študent na Mednarodni podiplomski šoli Jožefa Stefana

Faze projekta

Glavna cilja predlaganega projekta sta povečati reproduktabilnost (ponovljivost) eksperimentov in povečanje ponovne uporabnosti raziskovalnih izsledkov v domeni analize kompleksnih podatkov. Z namenom doseganja ciljev predlaganega projekta bomo kombinirali pristope, in ideje s področja analize kompleksnih podatkov, ontologij znanosti, semantičnega spleta ter induktivnih podatkovnih baz.

Prva faza

Najprej, tj. v prvi fazi projekta, se bomo osredotočili na načrtovanje, implementacijo in populiranje baze znanja za analizo kompleksnih podatkov. Ta faza vključuje tudi analizo kompetenc in potreb, v v okviru katere bomo upoštevali vse tipe povpraševanj ter interakcij s sistemom, kot je opredeljeno v scenarijih uporabe. Prav tako bomo ponovno uporabili in nadgrajevali naše prejšnje delo, pri čemer bomo uporabili najboljše prakse inženiringa (načrtovanja) ontologij z namenom zagotavljanja kompatibilnosti z drugimi viri. Na ta način ustvarjene ontologije in baza znanja bodo postali jedro oziroma hrbtenica našega sistema, saj bodo zagotovili sredstva za semantično anotacijo, povpraševanje in semantično inferenco, prav tako bodo določili shemo podatkov ter eksperimentalnih in modelnih skladov. Glavni cilj prve faze bo tako naposled pridobiti slovar za semantično anotacijo podatkov, eksperimentov in modelov, ki temeljijo na različnih tipih povpraševanj, za katera želimo, da nanje odgovori naš sistem.

Druga faza

V drugi fazi projekta bomo zasnovali in implementirali arhitekturo za semantično anotacijo podatkov, eksperimentov in modelov, in sicer z uporabo tehnologij semantičnega spleta in s shranjevanjem semantično anotiranih entitet v semantične sklade. To bomo uresničili z izvedbo naloge identificiranja primernega sistema podatkovnih baz, ki ga lahko uporabimo za shranjevanje (npr. relacijski ali NoSQL). Naslednji korak predstavlja potrebo po izboru ustreznega formalizma (npr. PMML, PFA) za reprezentacijo in shranjevanje modelov, ki smo jih ustvarili s sistemi analize kompleksnih podatkov. To je še posebej pomembno pri izvajanju naloge izvrševanja , validacije in revizije modelov z uporabo novih podatkov. Osrednji cilj druge faze projekta je tako pridobitev delujočega prototipa semantičnih skladov, in v ta namen bomo razvili niz preizkusnih scenarijev za populiranje semantičnih skladov.

Tretja faza

V tretji fazi projekta bomo zasnovali, implementirali in preizkusili nekaj različnih strategij povpraševanja, kot so povpraševanje eksplicitno zakodiranega znanja, povpraševanje znanja, pridobljenega s sklepanjem, ter združeno in induktivno povpraševanje. Prva strategija bo obsegala zastavljanje povpraševanj za individualne sklade z namenom povpraševanja zgolj po eksplicitno danem znanju, ki se nahaja v skladu v času izvedbe povpraševanja. Druga strategija vključuje zastavljanje povpraševanj posameznim skladom z uporabo storitve semantične inference. Na ta način lahko pridobimo rezultate, ki upoštevajo tudi znanje, pridobljeno s sklepanjem, in sicer z uporabo aksiomov, kot so definirani v ontologijah in bazi znanja. Tretja strategija predstavlja izvedbo združenih povpraševanj, ki vključujejo povpraševanje različnih skladov istočasno, in kombinacijo rezultatov. Združeno povpraševanje prinaša tudi dve ključni koristi: lažjo skalabilnost in enostavnejše upravljanje s podatki. Četrta strategija vključuje zastavljanje induktivnih povpraševanj. V tem primeru bo uporabnik domene vnesel svoje naloge analize podatkov, ki jih bo formuliral v deklarativni obliki, sistem pa bo po potrebi avtomatično generiral in izvedel eksperimente, povprašal sklade in uporabniku vrnil ustrezen rezultat. Prednost omenjene deklarativne specifikacije pri nalogah analize je ta, da uporabniku ni treba določiti, katero metodo bo uporabil.

Četrta faza

V zadnji (četrti) fazi raziskovalnega dela bomo na nekaj primerih demonstrirali različne aspekte ponovljivih in ponovno uporabnih analiz kompleksnih podatkov z uporabo prototipnih semantičnih skladov, zgrajenih v drugi fazi, ter s strategijami povpraševanj, zasnovanih v tretji fazi, in sicer na nekaterih uporabnih primerih scenarijev s področja strojnega učenja, raziskovanja vesolja, znanosti o življenju in kemijske informatike. Ta faza projekta se deloma prekriva z drugo in s tretjo fazo, ker bo v tem primeru uporabljen praktični primer iz strojnega učenja za testiranje semantičnih skladov in za testiranje različnih strategij povpraševanja. Predvideli smo, da se lahko praktični primeri iz drugih domen izvedejo v sodelovanju z drugimi partnerji iz projektov, kot so H2020 Human Brain Project, Interreg TRAIN, oziroma z institucijami, s katerimi že sodelujemo, kot denimo Evropska vesoljska agencija (ESA). Na ta način lahko, denimo, zagotovimo takojšnjo konkretizacijo predlaganega sistema za nalogo odkritja biomarkerjev ali odkritja bioloških značilk bolezni. Tako bomo lahko v nadaljevanju definirali scenarije za povpraševanje metod analize, ki izpolnjujejo niz pogojev uporabnikovih omejitev (kot npr. najdi vse metode, ki rešijo nalogo odkritja bioloških markerjev). Prav tako bomo lahko opredelili scenarije za povpraševanje semantičnih skladov, ki bodo omogočili iskanje modelov, ki izpolnjujejo vrsto uporabnikovih omejitev (kot npr. najdi značilke bolezni, ki vsebujejo neki klinični izid in nek biološki marker, najdi podatkovne množice, ki jih lahko uporabimo za preizkus veljavnosti danih bioloških značilk bolezni itd.). V sklepnem delu faze bomo podrobneje preučili scenarije za revizijo bioloških značilk, ne glede na to, ali so podatki o njih rezultat dela ekspertov ali pa so bili ustvarjeni iz podatkov.

Delovni sklopi

Raziskovalno delo v okviru predlaganega projekta bo organizirano v petih glavnih delovnih sklopih (DS).

DS 1 - Ontologije za analizo kompleksnih podatkov

DS 1 predstavlja osrednji delovni sklop tega projekta. Njegov cilj je konstruirati ontologije in baze znanja za analizo kompleksnih podatkov. Na ta način ustvarjene ontologije in baza znanja bodo postali hrbtenica oziroma jedro našega sistema, saj bodo zagotovili sredstva za semantično anotacijo, povpraševanje in semantično sklepanje, obenem pa tudi definirali strukturo podatkovnih, eksperimentalnih in modelnih skladov. Načrtovano delo tega sklopa bo realizirano v štirih nalogah.

  • N.1.1 Analiza kompetenc in potreb
  • N.1.2 Načrtovanje in implementacija ontologij za analizo kompleksnih podatkov
  • N.1.3 Baza znanja za analizo kompleksnih podatkov
  • N.1.4 Semantično označevanje podatkov, eksperimentov in modelov

DS 2 - Podatkovni, eksperimentalni in modelni skladi

Cilj tega DS je načrtovanje ter implementacija semantičnih skladov za shranjevanje semantično označenih entitet (kot denimo podatkov, eksperimentov, modelov), ki bodo pridobljeni z realizacijo naloge N.1.4 iz DS1. V nadaljevanju bomo v okviru tega DS analizirali različne pristope k reprezentaciji, shranjevanju, izvrševanju (eksekuciji) in reviziji modelov. Načrtovano delo tega DS bo realizirano v sklopu štirih nalog.

  • N.2.1 Opredelitev primerne arhitekture shranjevanja
  • N.2.2 Strategije reprezentacije, shranjevanja, izvrševanja in revidiranja modelov
  • N.2.3 Načrtovanje ter implementacija prototipnih podatkovnih, eksperimentalnih in modelnih skladov
  • N.2.4 Preizkušanje scenarijev uporabe na prototipnih podatkovnih, eksperimentalnih in modelnih skladih

DS 3 - Povpraševanja o podatkovnih, eksperimentalnih in modelnih skladih

Cilj tega DS je razviti in preizkusiti različne strategije povpraševanja končnih točk (endpoints) prototipnih semantičnih skladov, implementiranih v DS2, ter implementacija različnih storitev semantičnega povpraševanja. Tipi povpraševanj, ki jih bomo uporabili za semantične sklade, izhajajo iz vprašanj naloge o analizi kompetenc, N.1.1. Slovar za konstruiranje povpraševanj bodo zagotovile ontologije in baza znanja za analizo kompleksnih podatkov, ki jih bomo zasnovali v okviru DS1. Jezik povpraševanja, ki ga bomo uporabili na semantičnih skladih, je pogojen z izbiro upravljalnega sistema podatkovnih baz (npr. če bomo uporabili sklad tipa Apache Jena TDB za shranjevanje RDF artefaktov, bo omenjeni sklad zagotovil strežnik Fuseki SPARQL, ki omogoča povpraševanje sklada z uporabo jezika SPARQL). Strategije povpraševanj, ki jih bomo obravnavali v tem DS, bodo vključevale povpraševanje eksplicitno podanega znanja iz individualnih skladov, povpraševanje implicitno, tj. na podlagi sklepanja pridobljenega znanja iz posameznih skladov, združeno povpraševanje ter induktivno povpraševanje. Načrtovano delo v tem sklopu bo realizirano v štirih nalogah.

  • N.3.1 Povpraševanje eksplicitno podanega znanja iz skladov
  • N.3.2 Povpraševanje znanja iz skladov, pridobljenega s sklepanjem
  • N.3.3 Združeno semantično povpraševanje podatkovnih, eksperimentalnih in modelnih skladov
  • N.3.4 Induktivna povpraševanja na podatkovnih, eksperimentalnih in modelnih skladih

DS 4 - Primeri uporabe

Cilj tega delovnega sklopa je preizkusiti različne komponente in perspektive predlagane arhitekture, ki smo jo izgradili v delovnih sklopih od 1 do 3 (storitev semantičnega označevanja, ), in sicer v štirih primerih uporabe metod analize kompleksnih podatkov, ki izhajajo iz različnih področij, kot denimo strojnega učenja, raziskovanja vesolja in kemijske informatike. Uporabljeni primeri bodo uporabljeni v kontekstu zagotavljanja ponovljivih eksperimentov in ponovno uporabnih raziskovalnih izsledkov, pri čemer se bodo pokazale prednosti in napredek v uporabi izgrajene arhitekture. Primer iz strojnega učenja se bo začel izvajati v zgodnji fazi projekta (M14) in bo služil kot “pilotski preizkus” v nalogi N.2.4, kjer bomo preizkušali scenarij za populacijo semantičnih skladov, ter v nalogah od N.3.1 do N.3.4, s katerimi bomo preizkušali različne strategije povpraševanja semantičnih skladov. Druge primere uporabe bomo realizirati potem, ko bomo pridobili stabilne prototipe semantičnih skladov in storitev povpraševanj. Načrtovano delo tega sklopa bo potekalo v okviru štirih posameznih nalog.

  • N.4.1 Primeri uporabe v strojnem učenju
  • N.4.2 Primer uporabe v raziskavah vesolja
  • N.4.3 Primer uporabe v znanostih o življenju
  • N.4.4 Primer uporabe v kemijski informatiki

DS 5 - Razširjanje in uporaba projektnih rezultatov ter upravljanje

Cilj tega delovnega sklopa je zagotoviti diseminacijo in eksploatacijo projektnih rezultatov in pridobljenih virov iz delovnih sklopov od 1 do 4. Ta del projekta se bo izvajal s pomočjo spletne strani projekta, nato pa še z organizacijo različnih dogodkov, kot denimo delavnic (workshopov), hackatonov; projektne izsledke bomo prav tako predstavljali na konferencah in delavnicah ter v objavljenih znanstvenih člankih v najreferenčnejših revijah. Ta delovni sklop bo prav tako priskrbel informacije o implementaciji in rezultatih projekta Javni agenciji za raziskovalno dejavnost RS (ARRS) v obliki projektnih poročil. Načrtovano delo tega delovnega sklopa bo prav tako realizirano v štirih posameznih delovnih nalogah.

  • N.5.1 Spletna stran projekta
  • N.5.2 Organizacija hackatonov in delavnic
  • N.5.3 Upravljanje raziskovalnih izsledkov
  • N.5.4 Upravljanje projekta in poročanje

Rezultati projekta in prostodostopni viri

Bibliografske reference