Poenostavljanje besedil v slovenščini z velikimi jezikovnimi modeli

diplomsko delo

Blaž Bone (Avtor), Marko Robnik Šikonja (Mentor)

Povzetek

V diplomski nalogi smo raziskali poenostavljanje besedil v slovenščini z uporabo velikih jezikovnih modelov. Cilj naloge je bil razviti modele, ki lahko učinkovito poenostavijo slovenska besedila. Uporabili smo obstoječe angleške učne množice, jih strojno prevedli v slovenščino, nato na teh podatkih naučili modele, kot so SloT5, mT5 in mBART. Izvedli smo kvantitativno in kvalitativno analizo rezultatov, pri čemer smo uporabili metrike, kot so BLEU, SARI, BERTScore in LaBSE Similarity. Rezultati so pokazali, da so modeli uspešno poenostavili besedila, ohranili ključne informacije in smiselno poenostavili strukturo in jezik. Kljub uspešnim poenostavitvam so modeli pogosto ponovili izvirne povedi brez večjih sprememb.

Ključne besede

poenostavljanje besedila;veliki jezikovni modeli;univerzitetni študij;diplomske naloge;

Podatki

Jezik:	Slovenski jezik
Leto izida:	2024
Tipologija:	2.11 - Diplomsko delo
Organizacija:	UL FRI - Fakulteta za računalništvo in informatiko
Založnik:	[B. Bone]
UDK:	004.85:81'322(043.2)
COBISS:	209156355
Št. ogledov:	125
Št. prenosov:	30
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Angleški jezik
Sekundarni naslov:	Text simplification for Slovene using large language models
Sekundarni povzetek:	In this thesis, we explored text simplification in Slovene using large language models. The goal of the thesis was to develop models that can effectively simplify Slovene texts. We used existing English training datasets, which we machine-translated into Slovene, and then trained models such as SloT5, mT5, and mBART on these data. We conducted quantitative and qualitative analysis of the results, using metrics such as BLEU, SARI, BERTScore, and LaBSE Similarity. The results showed that the models can successfully simplify texts, retain key information, and meaningfully simplify the structure and language. Despite the successful simplifications, the models often repeat the original sentences without significant changes.
Sekundarne ključne besede:	natural language processing;text simplification;machine learning;large language models;computer and information science;diploma;Obdelava naravnega jezika (računalništvo);Strojno učenje;Računalniško jezikoslovje;Računalništvo;Univerzitetna in visokošolska dela;
Vrsta dela (COBISS):	Diplomsko delo/naloga
Študijski program:	1000468
Konec prepovedi (OpenAIRE):	1970-01-01
Komentar na gradivo:	Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani:	1 spletni vir (1 datoteka PDF (34 str.))
ID:	24892324