Nacionalni portal odprte znanosti

Mirjam Beranek (ur.): Priročni slovar tujk. Ljubljana: Cankarjeva založba, 2005. XVI + 904 str. - Mirjam Beranek (ur.): Priročni e-slovar tujk. Ljubljana: Cankarjeva založba, 2005. CD-ROM

Nanika Holz

Izvirni znanstveni članek

Oznake: elektronski slovarji;ocene in poročila;Priročni slovar tujk;slovarji;slovenščina;tujke

Leto: 2005 Vir: dLib.si Digitalna knjižnica Slovenije

Language corpora

Nanika Holz

Ni določena

Oznake:

Language corpora are used as one of the main language resources in modern lexicography. The article discusses how the Nova beseda corpus could be employed in the formation of the word list for the Dictionary of Newer Standard Slovenian Words.

Leto: 2015 Vir: ZRC SAZU

Besedilni korpus Nova beseda in geslovnik za Slovar novejšega besedja slovenskega knjižnega jezika

Nanika Holz

Izvirni znanstveni članek

Oznake:

Jezikovni korpusi se v sodobni leksikografiji uporabljajo kot eden glavnih jezikovnih virov. Prispevek obravnava možnosti izrabe korpusa Nova beseda pri pripravi geslovnika za Slovar novejšega besedja slovenskega knjižnega jezika.

Leto: 2015 Vir: ZRC SAZU

Glagoli rekanja v Slovarju slovenskega knjižnega jezika

Nanika Holz

Izvirni znanstveni članek

Oznake:

V prispevku sta podana pregled glagolov, povezanih z govornimi dejanji, in njihova obravnava v Slovarju slovenskega knjižnega jezika.

Leto: 2015 Vir: ZRC SAZU

Training corpus ssj500k 1.3

Simon Krek, Tomaž Erjavec, Kaja Dobrovoljc, Sara Može, Nina Ledinek, Nanika Holz

Raziskovalni podatki

Oznake: tagging;dependency treebank;parsing;named entities;tokenisation;manual annotation;TEI

The ssj500k training corpus is based on two training corpora built within the JOS project (http://nl.ijs.si/jos/). It contains the jos100k corpus and additional material from the jos1M corpus forming a training corpus with 500,000 words, manually checked and annotated on the levels of tokenization, ...

Leto: 2013 Vir: CLARIN.si

Training corpus ssj500k 1.4

Simon Krek, Kaja Dobrovoljc, Tomaž Erjavec, Sara Može, Nina Ledinek, Nanika Holz

Raziskovalni podatki

Oznake: tagging;dependency treebank;parsing;named entities;tokenisation;manual annotation;TEI

The ssj500k training corpus contains 500,000 words, manually annotated on the levels of tokenization, sentence segmentation, morphosyntactic tagging, lemmatisation, named entities, and, partially, syntactic dependencies. The ssj500k corpus uses the MULTEXT-East / JOS morphosyntactic tagset and the J ...

Leto: 2015 Vir: CLARIN.si

Training corpus ssj500k 2.0

Nanika Holz, Katja Zupan, Polona Gantar, Taja Kuzman, Simon Krek, Kaja Dobrovoljc, Tomaž Erjavec, Sara Može, Nina Ledinek

Raziskovalni podatki

Oznake: tagging;dependency treebank;parsing;named entities;tokenisation;manual annotation;TEI;verbal multiword expressions

The ssj500k training corpus contains about 500,000 tokens manually annotated on the levels of tokenisation, sentence segmentation, morphosyntactic tagging, and lemmatisation. About half of the corpus is also manually annotated with syntactic dependencies, named entities, and verbal multiword express ...

Leto: 2017 Vir: CLARIN.si

Training corpus ssj500k 2.1

Simon Krek, Kaja Dobrovoljc, Tomaž Erjavec, Sara Može, Nina Ledinek, Nanika Holz, Katja Zupan, Polona Gantar, Taja Kuzman, Jaka Čibej, Špela Arhar Holdt, Teja Kavčič, Iza Škrjanec, Dafne Marko, Lucija Jezeršek, Anja Zajc

Raziskovalni podatki

Oznake: tagging;dependency treebank;parsing;named entities;tokenisation;manual annotation;TEI;verbal multiword expressions;semantic role labelling

The ssj500k training corpus contains about 500,000 tokens manually annotated on the levels of tokenisation, sentence segmentation, morphosyntactic tagging, and lemmatisation. About half of the corpus is also manually annotated with syntactic dependencies, named entities, and verbal multiword express ...

Leto: 2018 Vir: CLARIN.si

Training corpus ssj500k 2.2

Simon Krek, Kaja Dobrovoljc, Tomaž Erjavec, Sara Može, Nina Ledinek, Nanika Holz, Katja Zupan, Polona Gantar, Taja Kuzman, Jaka Čibej, Špela Arhar Holdt, Teja Kavčič, Iza Škrjanec, Dafne Marko, Lucija Jezeršek, Anja Zajc

Raziskovalni podatki

Oznake: part-of-speech tagging;dependency treebank;parsing;named entities;tokenisation;manual annotation;TEI;verbal multiword expressions;semantic role labelling;CONLL-U

The ssj500k training corpus contains about 500,000 tokens manually annotated on the levels of tokenisation, sentence segmentation, morphosyntactic tagging, and lemmatisation. About half of the corpus is also manually annotated with syntactic dependencies, named entities, and verbal multiword express ...

Leto: 2019 Vir: CLARIN.si

Nacionalni portal odprte znanosti

Dostop do znanja slovenskih raziskovalnih organizacij