Nacionalni portal odprte znanosti

Diplomsko delo

Oznake: sociologija;zgodovina;Lovrenc na Pohorju;šolstvo;kulturna društva;športna društva;naravne znamenitosti;kulturne znamenitosti;gospodarstvo;diplomska dela;

Sveti Lovrenc na Pohorju : pregled kulturnega, gospodarskega, socialnega, cerkvenega in šolskega razvoja Svetega Lovrenca na Pohorju

Leto: 2009 Vir: Filozofska fakulteta (UM FF)

Prilagoditev statističnega strojnega prevajalnika za specifično domeno v slovenskem jeziku

JOŽE KADIVEC, Marko Robnik Šikonja, Špela Vintar

Magistrsko delo

Oznake: strojno prevajanje;statistično strojno prevajanje;prilagajanje strojnega prevajalnika za specifično domeno;prilagajanje statističnega strojnega prevajanja za področje farmacije;faktorski model;Moses;model na osnovi besednih zvez;Cohenova kappa;Fleissova kappa;strinjanje ocenjevalcev;

Strojno prevajanje, še posebej statistično strojno prevajanje, se je v zadnjih letih zelo razširilo, zahvaljujoč predvsem vse večjemu številu večjezičnih jezikovnih virov. Večina javno dostopnih strojnih prevajalnikov nam omogoča, da dobimo osnovno razumevanje vsebine v tujem jeziku, medtem ko ti ni ...

Leto: 2016 Vir: Fakulteta za računalništvo in informatiko (UL FRI)

ccGigafida ARPA language model 1.0

Jože Kadivec, Marko Robnik-Šikonja, Špela Vintar

Raziskovalni podatki

Oznake: Moses language model;probability language model

The ccGigafida ARPA language model was created from the ccGigafida written corpus of Slovenian (https://www.clarin.si/repository/xmlui/handle/11356/1035) using the KenLM algorithm in the Moses machine translation framework. It is a general language model of contemporary standard Slovenian language t ...

Leto: 2017 Vir: CLARIN.si

Pomembnost realistične evalvacije

Timotej Petrič, Špela Arhar Holdt, Marko Robnik Šikonja

Izvirni znanstveni članek

Oznake: slovenščina;standardna slovenščina;strojno slovnično pregledovanje;popravljanje napak;slovnični sklon;slovnično število;veliki jezikovni modeli;evalvacije;SloBERT (veliki jezikovni model);

Med napake pri pisanju v standardni slovenščini sodi raba neustreznega slovničnega sklona ali števila. S pomočjo velikega jezikovnega modela SloBERTa smo razvili novo metodologijo za strojno prepoznavo tovrstnih težav, ki smo jo preizkusili na neustrezni rabi tožilnika namesto rodilnika in množine n ...

Leto: 2024 Vir: Fakulteta za računalništvo in informatiko (UL FRI)

Reference List of Slovene Frequent Common Words

Senja Pollak, Špela Arhar Holdt, Simon Krek, Marko Robnik-Šikonja

Raziskovalni podatki

Oznake: common words;frequent words;reference corpora;readability

The reference list of Slovene most frequent common words was prepared by selecting vocabulary at the intersection of the most frequent 10,000 lemmas of four Slovene text corpora: the balanced reference corpus of written Slovene Kres, the reference corpus of spoken Slovene GOS, the corpus of computer ...

Leto: 2020 Vir: CLARIN.si

Slovene translation of SuperGLUE

Aleš Žagar, Marko Robnik-Šikonja, Teja Goli, Špela Arhar Holdt

Raziskovalni podatki

Oznake: benchmark;language understanding

SuperGLUE is a benchmark styled after GLUE with a new set of more difficult language understanding tasks, improved resources, and a public leaderboard. It is comprised of 8 corpora (BoolQ, CB, COPA, MultiRC, ReCoRD, RTE, WiC, WSC), which cover 4 different types of tasks (QA, NLI, WSD, coref.). Slove ...

Leto: 2020 Vir: CLARIN.si

Terminology extraction and alignment for the translation industry

Andraž Repar, Senja Pollak, Marko Robnik Šikonja, Špela Vintar, Antoine Doucet

Doktorska disertacija

Oznake: termini;luščenje;poravnava terminologije;prevajalska industrija;korpusi;terminology extraction;translation industry;corpus;

Terminology extraction and alignment for the translation industry

Leto: 2025 Vir: Repozitorij samostojnih visokošolskih in višješolskih izobraževalnih organizacij

Grammatical error correction of Slovenian school essays using large language models

Matej Klemen, Martin Božič, Špela Arhar Holdt, Marko Robnik Šikonja

Pregledni znanstveni članek

Oznake: large language models;grammatical error correction;educational domain;synthetic data construction;

Grammatical error correction (GEC) is the task of automatically detecting and correcting grammatical errors in text. Large language models have enabled the development of accurate automated methods for detecting and correcting certain types of errors. In the educational domain, the aim of GEC is to ...

Leto: 2025 Vir: Filozofska fakulteta (UL FF)

Terminology identification dataset KAS-term 1.0

Tomaž Erjavec, Darja Fišer, Nikola Ljubešić, Špela Arhar Holdt, Urban Bren, Marko Robnik Šikonja, Boštjan Udovič

Raziskovalni podatki

Oznake: terminology;manual annotation

The dataset contains 22,950 term candidates extracted from 15 Slovenian PhD theses. The term candidates are of length 1 to 4, extracted via morphosyntactic patterns and the frequency threshold of 3. The PhD theses are from the areas of chemistry, computer science and political science. Each of the t ...

Leto: 2018 Vir: CLARIN.si

Corpus extraction tool LIST 1.0

Luka Krsnik, Špela Arhar Holdt, Jaka Čibej, Kaja Dobrovoljc, Aleksander Ključevšek, Simon Krek, Marko Robnik-Šikonja

Raziskovalni podatki

Oznake: corpus linguistics;text processing;extraction;characters;word parts;words;word sets;n-grams;morphology

The LIST corpus extraction tool is a Java program for extracting lists from text corpora on the levels of characters, word parts, words, and word sets. It supports VERT and TEI P5 XML formats and outputs .CSV files that can be imported into Microsoft Excel or similar statistical processing software.

Leto: 2019 Vir: CLARIN.si

Nacionalni portal odprte znanosti

Dostop do znanja slovenskih raziskovalnih organizacij