Darja Fišer (Avtor), Senja Pollak (Avtor), Špela Vintar (Avtor)

Povzetek

V prispevku predstavljamo novo metodo luščenja definicij iz slovenskih specializiranih besedil, ki temelji na modelu za klasifikacijo definicij, naučenem z uporabo metod strojnega učenja iz primerov v slovenski Wikipediji. Prvi korak metode zajema luščenje kandidatov s pomočjo slovenskega semantičnega leksikona, avtomatskega razpoznavanja terminov ter leksikoskladenjskih vzorcev. V drugem koraku pa z uporabo naučenega klasifikacijskega modela izmed definicijskih kandidatov izberemo "prave" definicije. Iz korpusa s področja naravoslovja smo s to metodo izluščili več kot tisoč definicijskih kandidatov ter z uporabo naučenega modela dosegli do 70-odstotno klasifikacijsko točnost.

Ključne besede

korpusno jezikoslovje;slovenščina;luščenje definicij;luščenje informacij;računalniška obdelava naravnega jezika;strojno učenje;informacijsko poizvedovanje;

Podatki

Jezik: Slovenski jezik
Leto izida:
Tipologija: 1.16 - Samostojni znanstveni sestavek ali poglavje v monografski publikaciji
Organizacija: UL FF - Filozofska fakulteta
UDK: 801.8=163.6:81'322.2:004.738.5
COBISS: 47262818 Povezava se bo odprla v novem oknu
Št. ogledov: 5
Št. prenosov: 0
Ocena: 0 (0 glasov)
Metapodatki: JSON JSON-RDF JSON-LD TURTLE N-TRIPLES XML RDFA MICRODATA DC-XML DC-RDF RDF

Ostali podatki

Sekundarni jezik: Angleški jezik
Sekundarni povzetek: This paper presents a new method for definition extraction from Slovene domain-specific corpora, based on a model for definition classification learned using machine-learning methods on examples from Slovene Wikipedia. In the first step we extract definition candidates using a Slovene semantic lexicon, automatic terminology recognition and lexico-syntactic patterns. Next, we use the learned classification model to select ŽtrueŽ definitions from the set of definition candidates. The method was tested on a natural science domain corpus from which we extracted more than a thousand definition candidates and achieved up to 70% classification accuracy with the learned classification model.
Sekundarne ključne besede: corpus linguistics;Slovene language;definition extraction;information extraction;natural language processing;machine learning;information retrieval;
Vrsta dela (COBISS): Članek v reviji
Strani: Str. 145-150
ID: 19892444