Nacionalni portal odprte znanosti

Nacionalna infrastruktura odprtega dostopa - dostop do znanja slovenskih raziskovalnih organizacij

Slovenske univerze so leta 2013 s sofinanciranjem Evropskega sklada za regionalni razvoj in Ministrstva za izobraževanje, znanost in šport vzpostavile nacionalni portal odprte znanosti ter repozitorije za odprti dostop do zaključnih del študija in rezultatov raziskav raziskovalcev. Uporabnikom z vsega sveta so na voljo dvojezični spletni in mobilni vmesniki in priporočilni sistem. To infrastrukturo smo v letih od 2014 do 2022 dopolnili z repozitorijema za samostojne raziskovalne organizacije in ostale višješolske in visokošolske inštitucije, nacionalnim strežnikom za dodeljevanje trajnih identifikatorjev in arhivom za velepodatke. Vključili pa smo tudi več drugih ponudnikov rezultatov njihovih raziskav. Z vzpostavitvijo repozitorijev in nacionalnega portala odprte znanosti je raziskovalcem, študentom, podjetjem in ostalim uporabnikom doma ter po svetu omogočen dostop do raziskovalnih rezultatov slovenskih raziskovalnih organizacij. Raziskovalci imajo na voljo infrastrukturo, ki jim omogoča izpolnjevanje določil o obvezni odprti dostopnosti rezultatov raziskav iz javno financiranih raziskav.

Podrobnejši opis vzpostavitve nacionalne infrastrukture odprtega dostopa v letu 2013 najdete v članku: Milan Ojsteršek, Janez Brezovnik, Mojca Kotar, Marko Ferme, Goran Hrovat, Albin Bregant, Mladen Borovič, (2014) "Establishing of a Slovenian open access infrastructure: a technical point of view", Program: electronic library and information systems, letnik 48 številka: 4, str. 394 – 412.

Nacionalni portal in ostali podsistemi nacionalne infrastrukture odprtega dostopa

Slika, ki vsebuje besede besedilo, diagram, posnetek zaslona, vrstica

Opis je samodejno ustvarjen
Slika 1: Strukturni diagram nacionalne infrastrukture odprte znanosti

Nacionalno infrastrukturo odprtega dostopa (slika 1)^{^[1]} sestavlja šest repozitorijev in nacionalni portal, ki agregira metapodatke, drugi repozitoriji ter drugi ponudniki digitalnih objektov (Digitalna knjižnica Slovenije - dLib, CLARIN, Arhiv družboslovnih podatkov - ADP, Digitalna knjižnica Ministrstva za obrambo - DKMORS, CLARIN.si, Videolectures.NET, revije in monografije založb iz SAZU, slovenskih univerz in drugih založnikov, idr.). Kompatibilnost repozitorijev z navodili OpenAIRE^{^[2]} Evropski komisiji omogoča preverjanje izpolnjevanja določil o obvezni odprti dostopnosti vseh objav iz sofinanciranih projektov. Repozitoriji univerz so povezani s COBISS.SI in SICRIS-om, vključeni v evropski portal magistrskih ter doktorskih del DART-Europe in v različne spletne imenike, agregatorje ter iskalnike (OpenDOAR, ROAR, BASE …). Vzpostavljena infrastruktura Sloveniji omogoča izvajanje politike odprtega dostopa do rezultatov nacionalno financiranih raziskav, kot se pričakuje od držav članic EU, ki sodelujejo v ERA. Nacionalni portal openscience.si^{^[3]} agregira vsebine iz slovenskih repozitorijev in drugih slovenskih zbirk za potrebe združevalnega iskalnika, priporočilnega sistema in preverjanja podobnosti vsebin. Repozitorij dCOBISS^{^[4]} na podlagi agregiranih podatkov o odprtih objavah v repozitorijih omogoča financerjem preverjanje skladnosti pogodbenih obveznosti z dejansko odprtostjo znanstvenih objav, omogočil pa bo tudi različne statistične podatke o odprtih znanstvenih objavah (npr. število in vsota plačanih stroškov procesiranja člankov (ang. Article Processing Charge – APC), podatke o platformah odprtih objav, podatke o založnikih, podatke o uporabljenih licencah in drugo). V okviru nacionalne infrastrukture odprtega dostopa je vzpostavljena storitev za dodeljevanje trajnih identifikatorjev digitalnih objektov ter arhiv za hranjenje velepodatkov. Infrastruktura je povezana s slovenskim nacionalnim superračunalniškim omrežjem SLING, nacionalnim Covid19 portalom in Evropskim Covid19 portalom. Akademsko računalniško omrežje ARNES nam omogoča uporabo hrbteničnega omrežja, ki temelji na široko pasovnih optičnih povezavah. Na svoji strežniški infrastrukturi gostijo tudi repozitorija DIRROS in REVIS. Njihovo diskovno shrambo uporabljamo za shranjevanje varnostnih kopij. Inštitut informacijskih znanosti Maribor pa nam omogoča uporabo superračunalnika VEGA in velepodatkovnega arhiva, iz katerega lahko uporabniki obdelujejo podatke na Slovenskem nacionalnem superračunalniškem omrežju (SLING) ter na drugih superračunalnikih po Evropi.

Najpomembnejše prednosti slovenske infrastrukture pred drugimi nacionalnimi infrastrukturami so:

Nacionalni pristop k izgradnji nacionalne infrastrukture odprte znanosti in digitalnih objektov FAIR.
Nacionalna storitev PID.
Nacionalni arhiv velikih podatkov.
Za vse vključene inštitucije so pripravljene predloge politik o obveznem izvodu raziskovalnih publikacij, raziskovalnih podatkov, zaključnih del in drugih rezultatov raziskav (programska oprema, delovni postopki, laboratorijski zvezki, e-učna gradiva ...).
Stalni razvoj in dopolnitve procesov za deponiranje publikacij, zbirk raziskovalnih podatkov in drugih raziskovalnih rezultatov študentov in raziskovalcev v vseh vključenih inštitucijah.
Repozitoriji univerz uporabljajo lastno programsko opremo, ki je integrirana z informacijskimi in avtentikacijskimi sistemi univerz, nacionalnim bibliografskim sistemom COBISS.SI, nacionalnim sistemom za vodenje evidence raziskovalnega dela SICRIS in nacionalnim portalom openscience.si.
Detektor podobnih vsebin je vključen v proces oddaje zaključnih del študija in v oddajo del raziskovalcev.
Priporočilni sistem omogoča priporočanje gradiv znotraj posameznega repozitorija in med repozitoriji ter zunanjimi sistemi (VideoLectures.NET, DKMORS in dLib.si).
Aplikacijski programski vmesnik, ki omogoča uporabo različnih funkcionalnosti repozitorijev.
Mobilne aplikacije za Android in IOS ter vmesnik HTML5 omogočajo dostop do repozitorijev z mobilnih telefonov in drugih prenosnih naprav.
Nacionalna infrastruktura odprtega dostopa je povezana s slovenskim bibliografskim sistemom COBISS.SI. Nacionalni portal in institucionalni repozitoriji izvajajo izmenjavo metapodatkov s COBISS.SI preko Aplikacijsko programskega vmesnika prek vmesne baze Metadat.
Integracija z nacionalnim informacijskim sistemom za tekoče raziskave SICRIS, ARNES AAI, Crossref, Datacite.
Analitika odprodostopnih publikacij in drugih rezultatov raziskav se izvaja preko aplikacijskega programskega vmesnika v dCOBISS.

Repozitoriji

Slika 2: Struktura repozitorijev nacionalne infrastrukture odprtega dostopa

Programska oprema za repozitorije (slika 2) temelji na programski rešitvi, ki jo uporablja Digitalna knjižnica Univerze v Mariboru in jo je razvil Laboratorij za heterogene računalniške sisteme Univerze v Mariboru. Zaradi vzpostavitve različnih procesov oddaje publikacij s strani študentov in zaposlenih na univerzah je bila bistveno dopolnjena ter nadgrajena z novimi funkcionalnostmi.

Za potrebe procesov oddaje, hranjenja in katalogizacije digitalnih objektov je vsak institucionalni repozitorij univerz v Mariboru, Ljubljani, na Primorskem in v Novi Gorici povezan z avtentikacijskim sistemom univerze, univerzitetnim visokošolskim informacijskim sistemom in sistemom COBISS.SI. Tudi v repozitoriju REVIS je kar nekaj inštitucij, ki imajo povezan svoj akademski informacijski sistem z repozitorijsko programsko opremo.

Vsak digitalni objekt dobi nacionalni trajni identifikator (PID) tako da po njegovi katalogizaciji repozitorijska programska oprema kliče nacionalno storitev, ki vrača trajne identifikatorje. Za dodeljevanje trajnih identifikatorjev uporabljamo EUDATovo storitev B2Handle.

Velepodatke hranijo repozitoriji v arhivu za velepodatke. Za njihovo arhiviranje uporabljamo EUDATovo storitev B2Safe. Za prenos podatkov med superračunalniki in arhivi velepodatkov uporabljamo EUDATovo storitev B2Stage.

Za pohitritev vpisa metapodatkov digitalnih objektov, ki že imajo dodeljen trajni identifikator DOI uporabljamo storitve, ki jih ponujata Crossref in Datacite. Repozitorijska programska oprema kliče storitev tako, da kot vhod v storitev pošlje trajni identifikator DOI, nazaj pa pridobi metapodatke, ki jih hranita o tem digitalnem objektu Crossref in Datacite.

Za potrebe agregiranja metapodatkov s strani OpenAire imamo vzpostavljen storitev OAI-PMH, ki vrača metapodatke po navodilih, ki jih je podal OpenAire. Preko te storitve agregirajo metapodatke tudi drugi agregatorji ( Core, Dart Europe, Base…). Za Google Scholar in Google Dataset search smo vgradili v spletno stran za posamezne digitalne objekte metapodatke po formatu Highwire press in po specifikaciji Schema.org.

Na Univerzi v Ljubljani se po shranitvi v njihov repozitorij digitalni objekti shranijo še v dokumentni sistem Univerze. Za arhiviranje digitalnih objektov in njihovih metapodatkov se uporablja nacionalni portal in infrastruktura, ki je vzpostavljena na ARNESu in IZUMu.

Repozitoriji pošiljajo v nacionalni portal metapodatke in elektronske verzije digitalnih objektov takoj po izvedeni katalogizaciji v COBISS.SI. Iz nacionalnega portala pa repozitorij Univerze v Ljubljani pridobiva metapodatke in elektronske verzije publikacij iz ePrints.FRI, PeFprints in ADP. Prav tako repozitorij iz nacionalnega portala pridobi dodatne podatke o raziskovalcih in raziskovalnih organizacijah, ki jih slednji črpa iz SICRIS-a.

Repozitoriji pošiljajo v dCOBISS podatke, ki so potrebni za analitiko odprtega dostopa. Podatki, ki jih pošiljajo so vezani na projekte iz katerih je bila financirana raziskava in na plačila APC-jev, ki jih zaračunajo založniki.

Nacionalni portal izvaja priporočanje gradiv. Ob kliku na dokument v repozitoriju se iz nacionalnega portala pošlje v institucionalni repozitorij seznam podobnih dokumentov. Priporočilo je sestavljeno iz naslovov dokumentov znotraj repozitorija in naslovov dokumentov v drugih univerzitetnih repozitorijih, dLib.si, Arhiva družboslovnih podatkov CLARIN.si, repozitorijev založnikov revij in monografij, VideoLectures.NET in DKMORS.

Repozitoriji omogočajo funkcionalnosti, ki so namenjene skrbnikom, in funkcionalnosti, ki so namenjene uporabnikom. Skrbniški del uporabljajo referenti v študijskih referatih, knjižničarji podatkovni svetovalci in skrbniki sistema in je različno zasnovan za posamezne inštitucije. Referenti izvajajo pregled in zaklepanje zaključnih del študentov. Knjižničarji pregledujejo publikacije študentov in zaposlenih, jih katalogizirajo v COBISS-u ter njihove metapodatke iz COBISS.SI prenesejo v repozitorij. V skrbniškem delu lahko knjižničar metapodatke o publikaciji uvozi iz lokalne baze COBISS.SI in jim doda elektronsko različico publikacije. Na tak način je mogoče v repozitorij shraniti tudi publikacije, ki so že katalogizirane v COBISS.SI in zanje obstajajo elektronske različice ter ima univerza zanje ustrezno urejene avtorske pravice.

Uporabniški del institucionalnega repozitorija je razdeljen na del, ki je namenjen zainteresirani javnosti, in del, ki je namenjen prijavljenim uporabnikom (študentom in zaposlenim na univerzah; različna zasnova za posamezne univerze). Študenti in zaposleni na univerzah lahko po prijavi oddajo svoja dela v repozitorij ter pregledujejo svoje vsebine (metapodatke in podobna dela, ki jih je našel detektor podobnih vsebin). Del, ki je dostopen zainteresirani javnosti, je dvojezičen (slovenski in angleški uporabniški vmesnik) ter je dostopen preko spleta in na mobilnih platformah (Android in IOS). Spletna različica je prijazna do uporabnikov s posebnimi potrebami in vsebuje glavne značilnosti spletnih aplikacij, ki ustrezajo specifikaciji WAI. Spletni vmesnik omogoča uporabo invalidom z zmanjšano gibalno sposobnostjo in osebam, ki vidijo nekoliko slabše (npr. starejši in slabovidni).

Programska oprema omogoča enostavno in napredno iskanje ter brskanje. Članica univerze lahko prikaz vključi na svojo spletno stran tako, da kliče ustrezen JavaScript program ali uporabi JavaScript API za dostop do enostavnega ali naprednega iskanja ter brskanja po institucionalnem repozitoriju. Enak API uporabljajo tudi mobilne aplikacije. Članicam univerz in zaposlenim na univerzah je omogočen tudi izvoz metapodatkov o njihovih publikacijah v obliki RSS, JSON in RDF.

Repozitorij prikazuje različne statistike, s pomočjo katerih lahko za vsako inštitucijo ali posamezno enoto znotraj inštitucije ugotovimo celotno število njenih digitalnih objektov v repozitoriju in koliko jih je bilo shranjenih v zadnjem obdobju ter število vpogledov v metapodatke in ali prenosov digitalnega objekta. Za fakultete posamezne univerze so zanimive statistike, ki poročajo o številu ogledov in prenosov gradiv fakultete za pretekla leta na letni ravni. Iz statistik mentorjev zaključnih del študija lahko ugotovimo, s katerimi somentorji slednji sodelujejo in katera zaključna dela študija so študenti izdelali pod njihovim mentorstvom. Zanimiva je tudi statistika, ki na podlagi ključnih besed publikacij mentorja posredno prikaže, s katerimi raziskovalnimi področji se slednji ukvarja in kako se je skozi časovno obdobje spreminjalo njegovo raziskovalno področje.

Storitve nacionalnega portala

Slika 3. Struktura sistema skupnih storitev nacionalnega portala

Repozitoriji uporabljajo skupne storitve, ki jih ponuja nacionalni portal (slika 3). Te storitve so:

Storitev za dodeljevanje trajnega identifikatorja (PID): Vsak digitalni objekt dobi nacionalni trajni identifikator (PID) tako da po njegovi katalogizaciji repozitorijska programska oprema kliče nacionalno storitev, ki vrača trajne identifikatorje. Za dodeljevanje trajnih identifikatorjev uporabljamo EUDATovo storitev B2Handle.
Velepodatkovni arhiv: Velepodatke hranijo repozitoriji v arhivu za velepodatke. Za njihovo arhiviranje uporabljamo EUDATovo storitev B2Safe. Za prenos podatkov med superračunalniki in arhivi velepodatkov uporabljamo EUDATovo storitev B2Stage
Skupne storitve:
- Storitev priporočilnega sistema. Storitev vrača za vsak digitalni objekt najbolj podobne digitalne objekte v istem repozitoriju in digitalne objekte iz drugi repozitorijev in zunanjih repozitorijev in arhivov, ki so vključeni v nacionalno infrastrukturo odprtega dostopa.
- Storitev pretvorbe različnih vrst dokumentov v besedilo.
- Storitev optične razpoznave slik in pretvorbo besedila iz slik v tekst.
- Storitev detekcije podobnih vsebin. Storitev za vsak digitalni objekt, ki vsebuje datoteke, iz katerih se da pridobiti tekst, poišče najbolj podobna besedila.
- Storitev za določanje geografskega in časovnega pokritja. Storitev omogoča določitev geografskega in časovnega pokritja, ki ga preko spletne aplikacije določi uporabnik repozitorija. Metapodatki o geografskem in časovnem pokritju se dodajo med metapodatke določenega digitalnega objekta. Storitev je še v testni fazi.

Proces oddaje zaključnih del študentov na Univerzah v Mariboru in v Novi Gorici

Slika, ki vsebuje besede besedilo, posnetek zaslona, številka, vzporedno

Opis je samodejno ustvarjen

Slika 4: Sekvenčni diagram procesa oddaje zaključnih del študentov na Univerzah v Mariboru in v Novi Gorici

Študenti univerz v Mariboru in Novi Gorici zaključno delo študija oddajo na vmesniku repozitorija (slika 4), študenti univerz v Ljubljani in na Primorskem pa v študijski informatiki članice oziroma univerze ( slika 5).

Ko študent odda zaključno delo v institucionalni repozitorij Univerze v Mariboru ali univerze v Novi Gorici, institucionalni repozitorij pokliče storitev, ki za vse oddane dokumente preveri podobnost z drugimi deli. Storitev vrne povezavo na spletno stran, kjer lahko mentor, študent ali uslužbenec referata preverijo v kolikšni meri je delo podobno z drugimi. Prav tako si lahko iztiskajo poročilo o podobnosti z drugimi deli.

Ko je mentor na univerzi v Mariboru ali v Novi Gorici zadovoljen s končno različico zaključnega dela, lahko študent zaključi oddajo elektronske oblike zaključnega dela v institucionalni repozitorij, tiskano različico pa odda v študijski referat.

Slednji preveri istovetnost tiskane in elektronske različice zaključnega dela ter izjave, ki sta jih podpisala študent in mentor. To so izjave o vsebinski in oblikovni ustreznosti, istovetnosti tiskane ter elektronske verzije dela, o neizključnem prenosu materialnih avtorskih pravic in o določitvi embarga za prikaz dela na svetovnem spletu.

Po zagovoru zaključnega dela, knjižničar dobi tiskano različico publikacije in delo katalogizira v COBISS.SI.

Postopek oddaje s slikami je prikazan na https://dk.um.si/info/index.php/slo/oddaja-dela oz. na priponki https://dk.um.si/info/images/docs/postopek.oddaje.zakljucnega.dela.dkum.150722.pdf

Slika, ki vsebuje besede besedilo, diagram, številka, vzporedno

Opis je samodejno ustvarjen

Slika 5: Procesni diagram oddaje zaključnega dela na Univerzi v Ljubljani in na Univerzi na Primorskem

Proces oddaje publikacije raziskovalca

Slika, ki vsebuje besede besedilo, posnetek zaslona, številka, vzporedno

Opis je samodejno ustvarjen

Slika 6: Sekvenčni diagram procesa oddaje publikacije raziskovalca

Na vseh štirih univerzah smo za potrebe shranjevanja publikacij raziskovalcev vzpostavili enak proces (slika 6). Raziskovalec lahko v institucionalni repozitorij shranjuje članke, poglavja ali sestavke v monografiji, prispevke na konferenci, monografije, visokošolske učbenike ali druga učna gradiva, patente, raziskovalne podatke in druge vrste publikacij. Vrste publikacij smo prilagodili tipologiji dokumentov za vodenje bibliografij v sistemu COBISS.SI. Del metapodatkov je različen za različne vrste publikacij. Raziskovalec se prijavi v institucionalni repozitorij, vpiše metapodatke in odda elektronsko različico gradiva ali uporabi metapodatke o katalogiziranem gradivu iz COBISS.SI.

Programska oprema institucionalnega repozitorija omogoča avtorjem gradiv tudi povezavo s portalom SHERPA/RoMEO, da lahko preverijo kakšno vrsto dostopa do elektronske različice članka v reviji lahko uporabijo glede na pogodbo o prenosu avtorskih pravic, ki so jo sklenili z založnikom. Prav tako vnašalcu metapodatkov ob vnosu imen in priimkov avtorjev programska oprema ponudi predloge avtorjev v bazi CONOR.SI. Avtor lahko za svoja dela vpiše nosilca avtorskih pravic in vrsto dostopa do celotnega besedila (takojšnja dostopnost na svetovnem spletu, odlog objave do poteka datuma embarga ali zaprt dostop) ter vpiše datum embarga. Zadnji navedeni metapodatki so del kompatibilnosti z navodili OpenAIRE, ki omogočajo, da strežnik OAI-PMH v institucionalnih repozitorijih vrača OpenAIRE kompatibilen XML, tako da lahko strežniki portala OpenAIRE zajemajo metapodatke o slovenskih publikacijah, ki so bile financirane s sredstvi EU ali drugih javnih financerjev.

Priporočilni sistem

Slika, ki vsebuje besede besedilo, elektronika, posnetek zaslona, spletna stran

Opis je samodejno ustvarjen

Slika 7: Prikaz priporočenih gradiv

Sistemi priporočanja so uveljavljeni predvsem na spletnih straneh, ki se ukvarjajo s prodajo izdelkov ali reklam. Vedno bolj se uveljavljajo tudi v institucionalnih repozitorijih. Glavni cilj teh sistemov je uporabnikom ponuditi vsebine, ki bi jih zanimale.

Obstaja več pristopov k priporočanju, ki jih delimo v dve skupini. Prvo skupino predstavljajo pristopi, ki delujejo izključno nad uporabniškimi aktivnostmi (Su in Khoshgoftaar, 2009). Raziskovalci, ki razvijajo algoritme, katerih vhod so uporabniške aktivnosti, analizirajo verjetnost, da bo uporabnik izbral neko vsebino, če so jo izbrali tudi drugi uporabniki, ki jih zanimajo podobne stvari. Najbolj razširjeni algoritmi so vezani na sodelovalno filtriranje (angl. collaborative filtering), pristope z binarnimi vektorji in algoritem SlopeOne. Druga skupina pristopov priporočanja deluje zgolj nad vsebino, uporabniške aktivnosti so postranskega pomena in se lahko uporabljajo za dodatne uteži pri razvrščanju rezultatov. Primeri algoritmov za priporočanje sorodnih vsebin so BM25, k najbližjih sosedov, latentna pomenska analiza (LSA) in drugi, ki so bili izpeljani iz podobnih predpostavk. Poleg tega se pristopi razlikujejo tudi glede na to, ali se priporočanje izvaja v realnem času (angl. memory based recommendation) ali pa so rezultati vnaprej pripravljeni in se enkrat ali večkrat dnevno na novo izračunajo (angl. model based recommendation) ali pa je uporabljen hibridni pristop (Bobadilla et al., 2013).

Priporočilni sistem v institucionalnih repozitorijih omogoča, da ima uporabnik ob prikazu metapodatkov izbranega dokumenta na voljo tudi informacije o dokumentih, ki so po vsebini podobni izbranemu dokumentu, pri čemer izločimo vse dokumente, ki so delni duplikati izbranega dokumenta. Delne duplikate določimo tako, da uporabimo rezultate primerjave podobnih povedi in znakovne primerjave, ki smo ju opisali v prejšnjem poglavju.

V programski opremi smo uporabili vsebinsko priporočanje dokumentov, ki deluje po algoritmu izračuna vrednosti BM25 in uporablja še dodatne uteži (Borovič, 2012), ki so pridobljene iz metapodatkov dokumentov in opazovanjem uporabnikovih aktivnosti. Algoritem deluje na naslednji način: najprej za vsako publikacijo nad metapodatki (avtorji, naslov, ključne besede, povzetek) in celotnim besedilom izvedemo lematizacijo ter pomensko označevanje besednih zvez, s pomočjo člankov iz Wikipedije in ključnih besed, ki smo jih dobili iz metapodatkov vseh publikacij v nacionalnem portalu (Burjek, 2011). Za te besedne zveze izračunamo njihovo število pojavitev v vseh dokumentih (TF) in inverzno frekvenco IDF, ki je vezana na pojavitev te besede v posameznem dokumentu. Večjo utež IDF damo besednim zvezam iz metapodatkov o publikaciji (avtorji, naslov, ključne besede in povzetek). Nato izračunamo podobnost z ostalimi dokumenti po formuli, ki so jo predlagali Robertson, Zaragoza in Taylor (Robertson et al., 2004). V izračunani matriki se nato izločijo tisti pari, ki imajo izračunano vrednost 0, saj to pomeni, da takšna dokumenta nimata skupnih lastnosti. Tako ostane le še seznam podobnosti, ki ga shranimo v podatkovno bazo. Postopek shranjevanja v podatkovno bazo je namenjen temu, da lahko ob zahtevi za priporočanje zelo hitro vrnemo ustrezne dokumente. Prag priporočanja dokumentov nastavimo glede na razliko vrednosti BM25 našega dokumenta z vrednostmi BM25 drugih dokumentov. Priporočanje sorodnih dokumentov je torej rezultat izbiranja N dovolj podobnih dokumentov iz seznama vrednosti BM25. Seznam priporočenih dokumentov je lahko tudi prazen, če priporočilni sistem ne najde podobnih dokumentov.

Vsebinsko priporočanje se v nacionalni infrastrukturi odprtega dostopa izvaja na nacionalnem portalu. Ob kliku na dokument v institucionalnem repozitoriju se z nacionalnega portala v institucionalni repozitorij pošlje seznam podobnih dokumentov. Priporočilo je sestavljeno iz naslovov dokumentov znotraj institucionalnega repozitorija in naslovov dokumentov v drugih digitalnih zbirkah (dLib.si, VideoLectures.NET in DKMORS).

Viri

Bobadilla, J., Ortega, F., Hernando, A. in Gutiérrez, A. (2013). Recommender systems survey. Knowledge-based systems, 46 (7), 109-132. Pridobljeno 4. 6. 2014 s spletne strani: http://dx.doi.org/10.1016/j.knosys.2013.03.012.

Borovič, M. (2012). Sistem priporočanja dokumentov in analiza kvalitete vsebinskega priporočanja pri različnih obdelavah vhodnega besedila. Magistrsko delo. Maribor: Fakulteta za elektrotehniko, računalništvo in informatiko. Pridobljeno 4. 6. 2014 s spletne strani: http://dkum.uni-mb.si/IzpisGradiva.php?id=37811.

Burjek, M. (2011). Wikifikacija vsebin v digitalni knjižnici UM. Diplomsko delo. Maribor: Fakulteta za elektrotehniko, računalništvo in informatiko. Pridobljeno 4. 6. 2014 s spletne strani: http://dkum.uni-mb.si/IzpisGradiva.php?id=20570.

Robertson, S., Zaragoza, H. in Taylor, M. (2004). Simple BM25 extension to multiple weighted fields. V Proceedings of the thirteenth ACM international conference on Information and knowledge management. New York: ACM, 42–49.

Su, X. in Khoshgoftaar, T. M. (2009). A survey of collaborative filtering techniques. Advances in artificial intelligence, Article ID 421425, 19 strani. Pridobljeno 4. 6. 2014 s spletne strani: http://dx.doi.org/10.1155/2009/421425.

Detektor podobnih vsebin

Za potrebe detekcije podobnih vsebin v sistemu za upravljanje z učnimi vsebinami smo razvili vtičnik, ki ga uporabljajo na Univerzi v Mariboru, Univerzi na Primorskem, v ARNESovih učilnicah, Policijski akademiji, in na več samostojnih visokošolskih zavodih. V vtičniku je možno konfigurirati katere dokumente bo Moodle pošiljal v detekcijo podobnosti. V ARNESovih učilncah je možno definirati ali bo določena spletna učilnica uporabljala detekcijo podobnih vsebin ter ali se detekcija izvede takoj ob vstavljanju dokumenta v Moodle, ali pa se izvede, ko poteče rok oddaje naloge.

Sistem za ugotavljanje podobnosti med dokumenti je zasnovan tako, da lahko procent podobnosti vstavljenih del preverijo samo njihovi avtorji ali pedagoški delavci, ki so definirali določeno nalogo. Za univerze in fakultete smo pripravili tudi skrbniški vmesnik, preko katerega lahko avtorizirani uporabniki pregledujejo podobnost vseh del določene fakultete ali univerze. Te uporabnike določi vodstvo fakultete ali univerze in lahko tudi vstavljajo dela v skrbniškem vmesniku ali določajo spletne vire, ki bi jih želele fakultete ali univerze vključiti v preverjanje podobnosti s svojimi dokumenti. Možen je tudi dostop do skrbniškega vmesnika ob uporabi avtentikacije Arnes AAI. Trenutno ga za vse člane univerze uporablja samo Univerza na Primorskem. Knjižničarji in referenti posameznih vključenih organizacij lahko uporabljajo detektor podobnih vsebin preko vmesnika v repozitoriju.

Velika prednost naše rešitve v primerjavi s konkurenčnimi ponudniki je velika baza slovenskih besedil, ki se dnevno povečuje.

Vsebinsko ločimo med preverjanjem podobnosti vsebine in preverjanjem plagiatorstva. Ustrezne programske opreme določijo stopnjo podobnosti vsebin. O plagiatorstvu odloča človek na osnovi stopnje podobnosti in drugih kriterijev.

Ugotavljanje podobnosti med dokumenti se v detektorju podobnih vsebin na nacionalnem portalu odprte znanosti izvaja v dveh korakih.

V prvem koraku, ki ga imenujemo »ugotavljanje grobe podobnosti« (angl. fingerprinting), programska oprema za preverjanje podobnosti določi dokumente, ki so po vsebini najbolj podobni dokumentu, ki ga želimo preveriti. Za ta namen se uporabljajo algoritmi in drugi procesi, ki za celotno vsebino dokumenta ali za posamezne odseke dokumenta (poglavje, odstavek, stavek, določeno število besed) izračunajo značilke ( Stein, 2007, Alzahrani et al., 2012, Brezovnik in Ojsteršek, 2011a). V tem koraku program tudi določi katere dokumente bo uporabil za nadaljnjo obdelavo.

V drugem koraku, ki ga imenujemo »ugotavljanje fine podobnosti« (angl. pairwise feature-based exhaustive analysis), preverimo vsak dokument z vsakim z ugotavljanjem najdaljših skupnih podnizov znakov (Navaro, 2001).

Zaznavanje podobnosti vsebin (plagiatorstva) se v nacionalni infrastrukturi odprtega dostopa izvaja na nacionalnem portalu. Rezultate podobnosti lahko ob ustrezni avtentikaciji in avtorizaciji v institucionalnem repozitoriju ali v akademskem informacijskem sistemu univerze pogledajo pooblaščene osebe. Študent ali zaposleni na univerzi lahko vidi samo dela, pri katerih je avtor, soavtor ali mentor. Program za preverjanje podobnosti izvede primerjavo podobnosti za vsako delo, shranjeno v repozitorije univerz. Program ne preverja podobnosti slik.

Slika 9: Primer izpisa podobnosti besedil po primerjavi povedi med dvema besediloma (ugotavljanje grobe podobnosti)

Program, ki preverja podobnost povedi med besedili (slika 9), odkrije podobne povedi v obeh besedilih, ki so daljše od štiridesetih znakov.

Meja štiridesetih znakov je nastavljena na podlagi izkušenj, ki smo jih pridobili od leta 2008 z detekcijo podobnih vsebin na nivoju povedi. Krajše povedi običajno predstavljajo fraze ali ustaljeno strokovno terminologijo.

Programska rešitev za detekcijo podobnih vsebin je prilagojena analizi besedil v slovenskem jeziku (upošteva pregibnost jezika, sinonime), kar je glavna njegova prednost v primerjavi s konkurenčnimi produkti, ki so usmerjeni predvsem na preverjanje besedil v angleškem jeziku. Za preverjanje besedil v slovenskem jeziku smo razvili programsko ogrodje, ki omogoča povezovanje različnih opravil za procesiranje besedil in tekstovno rudarjenje (npr. razčlenjevanje vsebine, oblikoslovno označevanje, razreševanje sklicev, pomensko označevanje, delno avtomatsko dopolnjevanje pomenskega slovarja, določanje imenskih entitet, določanje relacij med imenskimi entitetami...). Za slovenski jezik uporabljamo oblikoslovni slovar, ki vsebuje okrog 8.000.000 besednih oblik združenih v okrog 320.000 lem. Kot splošni pomenski slovar smo uporabili besedne zveze iz naslovov člankov iz slovenske, angleške in nemške Wikipedije, ki smo jih ekstrahirali iz Dbpedije (Morsey et al., 2012) in domensko specifični pomenski slovar, ki smo ga zgradili s pomočjo ključnih besed, ki se pojavljajo v metapodatkih publikacij. Povedi, ki jih program za ugotavljanje grobe podobnosti označi kot podobne, so nesporno enake v obeh besedilih. Razlikujejo se lahko samo, če so avtorji uporabljali sinonime ali so jih napisali v drugi osebi oziroma so v njih uporabili mašila ( npr. torej, pa…). Program zazna podobne povedi v besedilih, čeprav je v njih lahko zamenjan vrstni red uporabljenih besed ali so v besedah tipkarske napake.

Algoritem za določanje podobnosti povedi med besedili (Brezovnik in Ojsteršek, 2011a), ki smo ga dodatno nadgradili, najprej pretvori besedilo v format UTF-8, izloči odvečne presledke in skoke v novo vrstico (CR, LF), razbije vsebino v stavke, ki jih nato lematizira, in iz njih izloči najbolj pogoste besede (npr. in ali, da ...) ter preostale besede iz stavka uredi po abecedi. V tem koraku izvede tudi popravljanje tipkarskih napak v besedah, če lahko iz oblikoslovnega slovarja ob uporabi POS označevalnika enoumno določi za katero besedo gre.

Za popravke tipkarskih napak smo uporabili Symmetric Delete Spelling Correction algoritem. Za lematizacijo program izvede še normalizacijo sinonimov, ki jih imamo shranjene v pomenskem slovarju in jih lahko brez spremembe pomena preslikamo v eno obliko.

Dober primer je normalizacija besed »predstaviti«, »opisati«, »prikazati«, ki so v večini primerov sinonimi. Zatem program za tako spremenjene povedi izračuna zgostitvene vrednosti (ang. hash). Nato program primerja zgostitvene vrednosti vseh dokumentov ter za naš dokument sestavi seznam delov besedila, ki so enaki v ostalih dokumentih.

Dokumenti, ki so med seboj podobni v povedih za več kot 1%, so kandidati za ugotavljanje znakovne podobnosti. Če je teh kandidatov manj kot 50, potem program vzame še ostale najbolj podobne dokumente, ki jih dobimo po primerjavi s pomočjo algoritma BM25 (Robertson et al., 2004).

Slika 6: Primer izpisa podobnosti po izvedbi znakovne primerjave med dvema besediloma (ugotavljanje fine podobnosti)

Program, ki izvaja znakovno primerjavo podobnosti med besedili (slika 6), išče najdaljše skupne podnize med dvema besediloma. Omejili smo se na skupne podnize znakov, ki so daljši od 14 znakov. Ko dobimo najdaljše skupne podnize znakov med posameznimi dokumenti, izločimo podnize, ki so krajši od 30 znakov in se nahajajo v istem dokumentu več kot 350 znakov od drugih skupnih podnizov znakov. Tudi zgoraj omenjene dolžine podnizov in razdalj med podnizi smo določili na podlagi študije velikega števila podobnih dokumentov, ki smo jih ročno pregledovali od leta 2008. Program barvno označi besedne zveze ali dele povedi, ki so enaki v obeh dokumentih. Za ugotavljanje skupnih podnizov obeh dokumentov smo uporabili algoritem, ki ga je razvil Kärkkäinen s sodelavci (Kärkkäinen et al., 2009).

Pri določenih gradivih je lahko velika razlika med izračunom podobnosti povedi in podobnosti, ki jo dobimo po znakovni primerjavi podobnosti. To velja predvsem za gradiva, ki so si na nivoju podobnih povedi zelo različna (npr. nobena cela poved ni enaka v obeh dokumentih). V teh primerih so avtorji vzeli določene povedi iz drugih dokumentov in jih delno spremenili, zato jih program za ugotavljanje podobnosti povedi ni zaznal. Programska rešitev tudi generira skupno poročilo o podobnosti med ocenjevanim dokumentom in izbranimi dokumenti ali med vsemi dokumenti, ki jih je program izbral kot kandidate za izvedbo znakovne primerjave podobnosti.

Končni rezultat preverjanja podobnosti je prikaz podobnosti dokumenta z drugimi dokumenti:

Navodila in video navodila za uporabo sistema za detekcijo podobnih vsebin najdete na https://dpv.openscience.si/navodila/

Mobilne aplikacije

Mobilne aplikacije za iskanje po nacionalni infrastrukturi odprtega dostopa delujejo na operacijskih sistemih Windows Phone, Android in iOS.

Slika, ki vsebuje besede mobilni telefon, komunikacijska naprava, mobilna naprava, prenosna komunikacijska naprava

Opis je samodejno ustvarjen

Slika, ki vsebuje besede besedilo, elektronika, računalnik, posnetek zaslona

Opis je samodejno ustvarjen

[1] O nacionalni infrastrukturi odprtega dostopa. Dosegljivo na http://openscience.si/OProjektu.aspx [22.6.2021]

[2] OpenAire navodila. Dosegljivo na https://guidelines.openaire.eu/en/latest/ [22.6.2021]

[3] Nacionalni portal odprte znanosti. Dosegljivo na http://openscience.si/ [22.6.2021]

[4] dCOBISS. Dosegljivo na https://blog.cobiss.si/2020/11/16/dcobiss/ [22.6.2021]