Avtomatsko luščenje hrvaško-slovenskega leksikona iz primerljivih korpusov

Darja Fišer (Author), Nikola Ljubešić (Author)

Abstract

V prispevku predstavljamo metodo za avtomatsko luščenje hrvaško-slovenskega leksikona iz primerljivega časopisnega korpusa s predpostavko, da se besede in njihove prevodne ustreznice pojavljajo v podobnih sobesedilih. Izhodiščni leksikon za primerjavo kontekstnih vektorjev z izkoriščanjem podobnosti med jezikoma zgradimo kar iz korpusa, nato pa opravimo še razvrščanje rezultatov glede na stopnjo sorodnosti med izvorno besedo in njenimi prevodnimi kandidati. Rezultati so zelo spodbudni in odpirajo številne možnosti uporabe za druge sorodne jezike.

Keywords

slovenščina;hrvaščina;korpusno jezikoslovje;primerljivi korpusi;spletni korpusi;dvojezični leksikoni;luščenje prevodnih ustreznic;sorodnice;

Data

Language:	Slovenian
Year of publishing:	2011
Typology:	1.16 - Independent Scientific Component Part or a Chapter in a Monograph
Organization:	UL FF - Faculty of Arts
UDC:	81'322.4=163.42=163.6:81'374:004.91
COBISS:	47260258
Views:	3
Downloads:	0
Average score:	0 (0 votes)
Metadata:

Other data

Secondary language:	English
Secondary abstract:	In this paper we present a method for extracting a bilingual lexicon for closely related languages from comparable corpora. We take advantage of the similarities between languages to build a seed lexicon to compare context vectors in both languages and use cognates for reranking translation candidates. The results are very encouraging, suggesting that other similar languages could benefit from the same approach.
Secondary keywords:	Slovenian language;Croatian language;corpus linguistics;comparable corpora;web corpora;bilingual lexica;extraction of translation equivalents;cognates;translation;
Type (COBISS):	Article
Pages:	Str. 137-144
ID:	19892437