Avtomatsko luščenje hrvaško-slovenskega leksikona iz primerljivih korpusov

Darja Fišer (Avtor), Nikola Ljubešić (Avtor)

Povzetek

V prispevku predstavljamo metodo za avtomatsko luščenje hrvaško-slovenskega leksikona iz primerljivega časopisnega korpusa s predpostavko, da se besede in njihove prevodne ustreznice pojavljajo v podobnih sobesedilih. Izhodiščni leksikon za primerjavo kontekstnih vektorjev z izkoriščanjem podobnosti med jezikoma zgradimo kar iz korpusa, nato pa opravimo še razvrščanje rezultatov glede na stopnjo sorodnosti med izvorno besedo in njenimi prevodnimi kandidati. Rezultati so zelo spodbudni in odpirajo številne možnosti uporabe za druge sorodne jezike.

Ključne besede

slovenščina;hrvaščina;korpusno jezikoslovje;primerljivi korpusi;spletni korpusi;dvojezični leksikoni;luščenje prevodnih ustreznic;sorodnice;

Podatki

Jezik:	Slovenski jezik
Leto izida:	2011
Tipologija:	1.16 - Samostojni znanstveni sestavek ali poglavje v monografski publikaciji
Organizacija:	UL FF - Filozofska fakulteta
UDK:	81'322.4=163.42=163.6:81'374:004.91
COBISS:	47260258
Št. ogledov:	3
Št. prenosov:	0
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Angleški jezik
Sekundarni povzetek:	In this paper we present a method for extracting a bilingual lexicon for closely related languages from comparable corpora. We take advantage of the similarities between languages to build a seed lexicon to compare context vectors in both languages and use cognates for reranking translation candidates. The results are very encouraging, suggesting that other similar languages could benefit from the same approach.
Sekundarne ključne besede:	Slovenian language;Croatian language;corpus linguistics;comparable corpora;web corpora;bilingual lexica;extraction of translation equivalents;cognates;translation;
Vrsta dela (COBISS):	Članek v reviji
Strani:	Str. 137-144
ID:	19892437