magistrsko delo
Alja Debeljak (Avtor), Marko Robnik Šikonja (Mentor), Kaja Dobrovoljc (Komentor)

Povzetek

Parafraziranje je pomembna naloga na področju obdelave naravnega jezika, saj vključuje tvorjenje povedi, ki se od izvorne razlikujejo po obliki, vendar ohranjajo enak pomen. Avtomatsko ustvarjanje raznolikih in razumljivih parafraz prispeva k lažjemu razumevanju in interpretaciji besedil ter izboljšuje komunikacijo med človekom in računalnikom. V tej nalogi smo razvili model za parafraziranje v slovenščini, ki temelji na vnaprej naučenih velikih generativnih jezikovnih modelih. Zaradi računske zahtevnosti velikih modelov smo izbrali manjšo različico večjezikovnega modela mT5 in slovenskega modela SloT5. Temeljita na arhitekturi transformer, ki trenutno prevladuje na področju obdelave naravnega jezika. Iz množice podnapisov OpenSubtitles2018 smo pridobili slovenske in angleške podnapise, angleške smo prevedli v slovenščino in tako ustvarili učno množico s poravnanimi slovenskimi parafrazami. Množica je uporabna za nadaljnje raziskave ter gradnjo modelov za generiranje slovenskih parafraz. Uporabili smo jo za prilagoditev modelov, ki smo ju ovrednotili z metrikama ROUGE in BERTScore ter kvalitativno s človeško presojo. Model SloT5 je dosegel boljše rezultate. Z analizo ustvarjenih parafraz smo opredelili glavne strategije parafraziranja v slovenščini ter najpogostejše napake.

Ključne besede

digitalno jezikoslovje;obdelava naravega jezika;veliki jezikovni modeli;generiranje parafraz;

Podatki

Jezik: Slovenski jezik
Leto izida:
Tipologija: 2.09 - Magistrsko delo
Organizacija: UL PEF - Pedagoška fakulteta
Založnik: [A. Debeljak Šokić]
UDK: 004.4:81'322.2(043.2)
COBISS: 227906051 Povezava se bo odprla v novem oknu
Št. ogledov: 69
Št. prenosov: 10
Ocena: 0 (0 glasov)
Metapodatki: JSON JSON-RDF JSON-LD TURTLE N-TRIPLES XML RDFA MICRODATA DC-XML DC-RDF RDF

Ostali podatki

Sekundarni jezik: Angleški jezik
Sekundarni naslov: [Generating paraphrases in Slovene using machine learning]
Sekundarni povzetek: Paraphrasing is an important task in natural language processing, involving the generation of expressions that differ in form from the original text while preserving its meaning. Automatically generating versatile and comprehensible paraphrases enhances text understanding and interpretation, and also improves human-computer interaction. We developed a paraphrasing model for Slovene, leveraging pre-trained models. Due to the computational complexity of large models, we selected a smaller version of the multilingual mT5 model and the Slovene SloT5 model, both of which are based on the transformer architecture which currently prevails in the field of natural language processing. Using the OpenSubtitles2018 dataset, we obtained Slovene and English subtitles, translating the English subtitles into Slovene to create a training set with aligned Slovene paraphrases. The dataset can be used for future research and developing models for generating Slovene paraphrases. We fine-tuned the models using this dataset and evaluated their performance with ROUGE and BERTScore metrics, as well as qualitative human judgment. The SloT5 model produced better results. By analyzing the generated paraphrases, we identified key paraphrasing strategies in Slovene and the most common errors.
Sekundarne ključne besede: digital linguistics;natural language processing;large language models;paraphrase generation;Kognitivna znanost;Strojno prevajanje;Univerzitetna in visokošolska dela;
Vrsta dela (COBISS): Magistrsko delo/naloga
Študijski program: 0
Konec prepovedi (OpenAIRE): 1970-01-01
Komentar na gradivo: Univ. v Ljubljani, skupni interdsciplinarni program druge stopnje Kognitivna znanost, v sodelovanju z Universität Wien, Univerzita Komenského v Bratislave in Eötvös Loránd Tudományegyetem
Strani: 1 spletni vir (1 datoteka PDF (65 str.))
ID: 25980359
Priporočena dela:
, Bayesian attention networks for reliable hate speech detection