Nacionalni portal odprte znanosti

Combining available datasets for building named entity recognition models of Croatian and Slovene

Nikola Ljubešić, Marija Stupar, Terezija Jurić, Željko Agić

Izvirni znanstveni članek

Oznake: named entity recognition;corpora (linguistics);Croatian language;Slovenian language;

Leto: 2013 Vir: dLib.si Digitalna knjižnica Slovenije

Nikola Ljubešić, Željko Agić, Filip Klubička, Vuk Batanović, Tomaž Erjavec

Raziskovalni podatki

Oznake: part-of-speech tagging;dependency treebank;parsing;named entities;tokenisation;manual annotation;TEI;semantic role labelling

The hr500k training corpus contains about 500,000 tokens manually annotated on the levels of tokenisation, sentence segmentation, morphosyntactic tagging, lemmatisation and named entities. About half of the corpus is also manually annotated with syntactic dependencies. Furthermore, about a fifth of ...

Leto: 2018 Vir: CLARIN.si

Nacionalni portal odprte znanosti

Dostop do znanja slovenskih raziskovalnih organizacij