Cross-lingual transfer of resources and models for question answering

master's thesis

Lodi Dodevska (Avtor), Marko Robnik Šikonja (Mentor)

Povzetek

Implementing natural language processing (NLP) techniques for low-reso-urce languages is one of the biggest challenges in today's machine learning field. Most state-of-the-art works are focused on well-resourced languages, such as English. However, most languages have scarce resources and it is hard, and in some cases almost impossible, to develop NLP models. We focus on implementation of automatic question answering (QA) models in Macedonian. Since there are no QA datasets in Macedonian yet, we provide the first semi-automatic translation of the SuperGLUE benchmark. Using three question answering datasets from this benchmark (BoolQ, COPA and MultiRC) we fine-tune and compare several transformer-based models. The obtained results show that even in a low-resource language such as Macedonian, we can obtain good results for automatic QA. The translated benchmark and the fine-tuned models can represent a baseline for further research.

Ključne besede

question answering;cross-lingual transfer;information retrieval;deep learning;Macedonian language;transformer models;computer science;master's thesis;

Podatki

Jezik:	Angleški jezik
Leto izida:	2022
Tipologija:	2.09 - Magistrsko delo
Organizacija:	UL FRI - Fakulteta za računalništvo in informatiko
Založnik:	[L. Dodevska]
UDK:	004.8:81'322(043.2)
COBISS:	128897795
Št. ogledov:	55
Št. prenosov:	10
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Slovenski jezik
Sekundarni naslov:	Medjezikovni prenos virov in modelov za problem odgovarjanja na vprašanja
Sekundarni povzetek:	Implementacija tehnik obdelave naravnega jezika (NLP) za jezike z malo viri je eden večjih izzivov na področju strojnega učenja. Večina raziskav je osredotočena na jezike z dovolj viri, kot je angleščina. Ker so za večino jezikov viri omejeni, je zanje težko razviti modele NLP. V magisterskem delu se osredotočimo na implementacijo modelov avtomatskega odgovarjanja na vprašanja (QA) v makedonskem jeziku. Ker v makedonščini še ne obstajajo učne množice za ta namen, izdelamo prvi polavtomatski prevod zbirke nalog SuperGLUE. Z uporabo treh učnih množic za odgovarjanje na vprašanja (BoolQ, COPA in MultiRC) prilagodimo več modelov, ki temeljijo na arhitekturi transformer. Dobljeni rezultati kažejo, da lahko tudi v jeziku z malo viri, kot je makedonščina, dobimo dobre rezultate za QA. Prevedene učne množice in prilagojeni modeli predstavljajo izhodišče za nadaljnje raziskave.
Sekundarne ključne besede:	odgovarjanje na vprašanja;medjezikovni prenos;pridobivanje informacij;globoko učenje;makedonščina;transformer model;magisteriji;Obdelava naravnega jezika (računalništvo);Računalniško jezikoslovje;Strojno učenje;Računalništvo;Univerzitetna in visokošolska dela;
Vrsta dela (COBISS):	Magistrsko delo/naloga
Študijski program:	1000471
Konec prepovedi (OpenAIRE):	1970-01-01
Komentar na gradivo:	Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani:	VIII, 59 str.
ID:	16812122