diplomsko delo
Povzetek
Predstavljen je postopek izgradnje podpore za slovenščino v okolju Spacy,
ki je ena najpopularnejših knjižnic za obdelavo naravnega jezika. Opisane
so osnovne funkcionalnosti orodij za obdelavo naravnega jezika in predsta-
vljene nekatere obstoječe knjižnice, modeli ter korpusi s tega področja. Po-
drobneje je predstavljeno okolje Spacy in njegova implementacija cevovoda
za označevanje besedil. Praktični del obsega izdelavo novih modelov za le-
matizacijo, oblikoskladenjsko označevanje, skladenjsko razčlenjevanje in pre-
poznavanje imenskih entitet v standardnem in nestandardnem slovenskem
jeziku. Ena od komponent izdelave so besedni vektorji, ki jih generiramo iz
obstoječih prosto dostopnih korpusov. Modeli strojnega učenja so ustvarjeni
s pomočjo odprtokodne knjižnice Thincc. Opisan je postopek konfiguracije
in treniranja modelov na ročno označenih učnih množicah ssj500k (za stan-
dardno slovenščino) in Janes-Tag (za nestandardno slovenščino). Zgrajene
komponente ovrednotimo s primerjavo hitrosti ter natančnosti že obstoječih
modelov.
Ključne besede
označevanje besedil;Spacy;korpus;besedni vektorji;interdisciplinarni študij;univerzitetni študij;diplomske naloge;
Podatki
Jezik: |
Slovenski jezik |
Leto izida: |
2022 |
Tipologija: |
2.11 - Diplomsko delo |
Organizacija: |
UL FRI - Fakulteta za računalništvo in informatiko |
Založnik: |
[L. Dragar] |
UDK: |
004.8:81'322.2(043.2) |
COBISS: |
121780227
|
Št. ogledov: |
446 |
Št. prenosov: |
86 |
Ocena: |
0 (0 glasov) |
Metapodatki: |
|
Ostali podatki
Sekundarni jezik: |
Angleški jezik |
Sekundarni naslov: |
Building support for Slovene in Spacy library |
Sekundarni povzetek: |
We present the implementation of the Slovenian annotation pipeline in Spacy,
which is one of the most popular libraries for natural language processing.
We outline some of the existing tools, models and corpora. Spacy and it’s
low-level pipeline for language annotations are described in detail. We imple-
mentint new models for lemmatization, part-of-speech tagging, dependency
parsing and named entity recognition for Slovenian. We generate static word
embeddings from existing and publicly available corpora. The models are
built using neural networks and the open source library Thincc. We describe
the configuration and training of the models on two public corpora, ssj500k
(for standard Slovenian) and Janes-Tag (for nonstandard Slovenian). The
models are evaluated and compared to existing tools. |
Sekundarne ključne besede: |
natural language processing;text annotation;Spacy;corpus;word embeddings;computer science;computer and information science;computer science and mathematics;interdisciplinary studies;diploma;Obdelava naravnega jezika (računalništvo);Strojno učenje;Računalništvo;Univerzitetna in visokošolska dela; |
Vrsta dela (COBISS): |
Diplomsko delo/naloga |
Študijski program: |
1000407 |
Konec prepovedi (OpenAIRE): |
1970-01-01 |
Komentar na gradivo: |
Univ. v Ljubljani, Fak. za računalništvo in informatiko |
Strani: |
39 str. |
ID: |
16391546 |