Prilagoditev velikih jezikovnih modelov za popravljanje slovničnih napak v slovenščini

magistrsko delo

Martin Božič (Avtor), Marko Robnik Šikonja (Mentor)

Povzetek

Strojno popravljanje slovničnih napak v slovenskem jeziku je še ne rešen problem. Rešitev bi olajšala pisno komunikacijo. Problem v okviru magistrske naloge razdelimo na podprobleme: popravljanje zapisa besed, zaznavanje napačno zapisanih besed, popravljanje pregibanja besed in popravljanje vrstnega reda besed. Najboljše rezultate dosežemo z izpopolnjevanjem slovenskega SloT5 modela. Najboljše modele uporabimo pri izdelavi spletne aplikacije. Ugotovimo, da je pri reševanju problema popravljanja slovničnih napak najbolj pomembna izbira ustreznega osnovnega jezikovnega modela in izgradnja kvalitetne učne množice. Pri izgradnji učne množice skušamo zajeti čim več kvalitetnih in realnih slovničnih napak, ne da bi pri tem spremenili ali pokvarili izvorni pomen besedila.

Ključne besede

veliki jezikovni modeli;slovnične napake;popravljanje slovničnih napak;slovnični popravki;nevronske mreže;model T5;transformerji;model SloBERTa;računalništvo in informatika;magisteriji;

Podatki

Jezik:	Slovenski jezik
Leto izida:	2023
Tipologija:	2.09 - Magistrsko delo
Organizacija:	UL FRI - Fakulteta za računalništvo in informatiko
Založnik:	[M. Božič]
UDK:	004.8:81'322(043.2)
COBISS:	168228099
Št. ogledov:	55
Št. prenosov:	14
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Angleški jezik
Sekundarni naslov:	Adaptation of large language models for grammar correction in Slovene
Sekundarni povzetek:	Machine correction of grammatical errors in the Slovenian language is still an unsolved problem. Its solution would improve written communication. We divide the problem into subproblems: correcting word spelling, detecting misspelled words, correcting word inflection and correcting word order. The best results are achieved by finetuning the Slovenian SloT5 model. We use the best models in a web application. We conclude that in correcting grammatical errors, the most important consideration is the choice of a large language model and construction of a learning set. When building the learning set, we try to capture as many realistic grammatical errors as possible, without changing the meaning of the text.
Sekundarne ključne besede:	large language models;grammar correction;grammatical corrections;neural networks;machine learning;Slovene;model T5;transformers;model BERT;model SloBERTa;computer science;computer and information science;master's degree;Računalniško jezikoslovje;Strojno učenje;Slovenščina;Računalništvo;Univerzitetna in visokošolska dela;
Vrsta dela (COBISS):	Magistrsko delo/naloga
Študijski program:	1000471
Konec prepovedi (OpenAIRE):	1970-01-01
Komentar na gradivo:	Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani:	95 str.
ID:	19933610