Darja Fišer (Author), Nikola Ljubešić (Author)

Abstract

V prispevku predstavljamo metodo za avtomatsko luščenje hrvaško-slovenskega leksikona iz primerljivega časopisnega korpusa s predpostavko, da se besede in njihove prevodne ustreznice pojavljajo v podobnih sobesedilih. Izhodiščni leksikon za primerjavo kontekstnih vektorjev z izkoriščanjem podobnosti med jezikoma zgradimo kar iz korpusa, nato pa opravimo še razvrščanje rezultatov glede na stopnjo sorodnosti med izvorno besedo in njenimi prevodnimi kandidati. Rezultati so zelo spodbudni in odpirajo številne možnosti uporabe za druge sorodne jezike.

Keywords

slovenščina;hrvaščina;korpusno jezikoslovje;primerljivi korpusi;spletni korpusi;dvojezični leksikoni;luščenje prevodnih ustreznic;sorodnice;

Data

Language: Slovenian
Year of publishing:
Typology: 1.16 - Independent Scientific Component Part or a Chapter in a Monograph
Organization: UL FF - Faculty of Arts
UDC: 81'322.4=163.42=163.6:81'374:004.91
COBISS: 47260258 Link will open in a new window
Views: 3
Downloads: 0
Average score: 0 (0 votes)
Metadata: JSON JSON-RDF JSON-LD TURTLE N-TRIPLES XML RDFA MICRODATA DC-XML DC-RDF RDF

Other data

Secondary language: English
Secondary abstract: In this paper we present a method for extracting a bilingual lexicon for closely related languages from comparable corpora. We take advantage of the similarities between languages to build a seed lexicon to compare context vectors in both languages and use cognates for reranking translation candidates. The results are very encouraging, suggesting that other similar languages could benefit from the same approach.
Secondary keywords: Slovenian language;Croatian language;corpus linguistics;comparable corpora;web corpora;bilingual lexica;extraction of translation equivalents;cognates;translation;
Type (COBISS): Article
Pages: Str. 137-144
ID: 19892437
Recommended works:
, zasnova vprašalnika, prvi rezultati
, no subtitle data available
, no subtitle data available