master's thesis
Povzetek
Implementing natural language processing (NLP) techniques for low-reso-urce languages is one of the biggest challenges in today's machine learning field. Most state-of-the-art works are focused on well-resourced languages, such as English. However, most languages have scarce resources and it is hard, and in some cases almost impossible, to develop NLP models.
We focus on implementation of automatic question answering (QA) models in Macedonian. Since there are no QA datasets in Macedonian yet, we provide the first semi-automatic translation of the SuperGLUE benchmark. Using three question answering datasets from this benchmark (BoolQ, COPA and MultiRC) we fine-tune and compare several transformer-based models.
The obtained results show that even in a low-resource language such as Macedonian, we can obtain good results for automatic QA. The translated benchmark and the fine-tuned models can represent a baseline for further research.
Ključne besede
question answering;cross-lingual transfer;information retrieval;deep learning;Macedonian language;transformer models;computer science;master's thesis;
Podatki
Jezik: |
Angleški jezik |
Leto izida: |
2022 |
Tipologija: |
2.09 - Magistrsko delo |
Organizacija: |
UL FRI - Fakulteta za računalništvo in informatiko |
Založnik: |
[L. Dodevska] |
UDK: |
004.8:81'322(043.2) |
COBISS: |
128897795
|
Št. ogledov: |
55 |
Št. prenosov: |
10 |
Ocena: |
0 (0 glasov) |
Metapodatki: |
|
Ostali podatki
Sekundarni jezik: |
Slovenski jezik |
Sekundarni naslov: |
Medjezikovni prenos virov in modelov za problem odgovarjanja na vprašanja |
Sekundarni povzetek: |
Implementacija tehnik obdelave naravnega jezika (NLP) za jezike z malo viri je eden večjih izzivov na področju strojnega učenja. Večina raziskav je osredotočena na jezike z dovolj viri, kot je angleščina. Ker so za večino jezikov viri omejeni, je zanje težko razviti modele NLP.
V magisterskem delu se osredotočimo na implementacijo modelov avtomatskega odgovarjanja na vprašanja (QA) v makedonskem jeziku. Ker v makedonščini še ne obstajajo učne množice za ta namen, izdelamo prvi polavtomatski prevod zbirke nalog SuperGLUE.
Z uporabo treh učnih množic za odgovarjanje na vprašanja (BoolQ, COPA in MultiRC) prilagodimo več modelov, ki temeljijo na arhitekturi transformer.
Dobljeni rezultati kažejo, da lahko tudi v jeziku z malo viri, kot je makedonščina, dobimo dobre rezultate za QA. Prevedene učne množice in prilagojeni modeli predstavljajo izhodišče za nadaljnje raziskave. |
Sekundarne ključne besede: |
odgovarjanje na vprašanja;medjezikovni prenos;pridobivanje informacij;globoko učenje;makedonščina;transformer model;magisteriji;Obdelava naravnega jezika (računalništvo);Računalniško jezikoslovje;Strojno učenje;Računalništvo;Univerzitetna in visokošolska dela; |
Vrsta dela (COBISS): |
Magistrsko delo/naloga |
Študijski program: |
1000471 |
Konec prepovedi (OpenAIRE): |
1970-01-01 |
Komentar na gradivo: |
Univ. v Ljubljani, Fak. za računalništvo in informatiko |
Strani: |
VIII, 59 str. |
ID: |
16812122 |