magistrsko delo
Sabina Gorenc (Avtor), Marko Robnik Šikonja (Mentor), Marko Stabej (Komentor)

Povzetek

Za povečanje dostopnosti in raznovrstnosti lahkega branja v slovenščini, ki vsebuje jezikovno prilagojena besedila, smo izdelali prototip sistema, ki avtomatsko poenostavlja besedila. To je prvi sistem za samodejno pretvarjanje slovenskih povedi in besedil v enostavnejšo obliko. Pripravili smo podatkovno množico za slovenski jezik s poravnanimi enostavnimi in kompleksnimi stavki, ki bo uporabna za nadaljnje raziskave. Uporabili smo model T5 za slovenski jezik, ki je naučen na drugih nalogah s področja naravne obdelave jezika. Model uporablja strojno učenje s prenosom znanja na globokih nevronskih mrežah z arhitekturo kodirnik-dekodirnik. Za iskanje optimalnih vrednosti hiperparametrov in evalvacijo uspešnosti sistema smo uporabili avtomatske mere ROUGE in BERTScore, ki so dokaj visoke in kažejo na uspešnost sistema. Sistem generira enostavčne ali enostavne večstavčne povedi s preprostimi priredji in podredji in ne uporablja trpnika ali posebnih simbolov. S stališča skladenjske preprostosti je sistem uspešen, bolj podrobno pa smo njegovo uspešnost ocenili še s pomočjo človeške evalvacije z uporabo vprašalnika, ki bi se ga lahko uporabilo za preverjanje razumljivosti in smiselnosti avtomatsko zgeneriranih stavkov tudi v nadaljnjih študijah. Z vprašalnikom smo ugotovili, da model ni preveč uspešen pri tvorjenju smiselnih in razumljivih odstavkov. Večina ocenjevalcev je menila, da so skoraj ali čisto nerazumljivi. Raziskovali smo še kriterije razumljivosti za avtomatsko generirana besedila in ugotovili, da so pomembni kriteriji razumljivosti jedrnatost, jezikovna pravilnost, leksikalna preprostost, skladenjska preprostost, koherenca in povzemalna ustreznost. Določitev kriterijev razumljivosti za avtomatsko generirana besedila je pomemben doprinos k nadaljnjemu razvoju in evalvaciji modelov avtomatskega poenostavljanja besedil, saj omogočajo objektivno oceno razumljivosti takih besedil. Naš sistem se je najboljše odrezal po kriterijih skladenjske in leksikalne preprostosti, najslabše pa v povzemalni ustreznosti, koherenci in jedrnatosti. Sistem je delno uporaben kot pomoč poenostavljalcem, potencialno pa bi se ga dalo izkoristiti v kombinaciji s povzemanjem za zagotavljanje preprostejšega besedišča in preproste skladenjske strukture.

Ključne besede

poenostavljanje besedil v slovenščini;lahko branje;globoke nevronske mreže;model zaporedje v zaporedje;T5 model;razumljivost besedil;kriteriji razumljivosti;

Podatki

Jezik: Slovenski jezik
Leto izida:
Tipologija: 2.09 - Magistrsko delo
Organizacija: UL PEF - Pedagoška fakulteta
Založnik: [S. Gorenc]
UDK: 81'322.2:004.032.26(043.2)
COBISS: 121697027 Povezava se bo odprla v novem oknu
Št. ogledov: 1
Št. prenosov: 0
Ocena: 0 (0 glasov)
Metapodatki: JSON JSON-RDF JSON-LD TURTLE N-TRIPLES XML RDFA MICRODATA DC-XML DC-RDF RDF

Ostali podatki

Sekundarni jezik: Angleški jezik
Sekundarni naslov: Unsupervised learning for automatic text simplification
Sekundarni povzetek: In order to increase the accessibility and variety of easy reading in Slovenian, which contains stylistic and language adaptations, we created a prototype of a system that automatically simplifies texts. This is the first system for automatically converting Slovenian sentences and texts into a simpler form. We have prepared a dataset for the Slovenian language that contains aligned simple and complex sentences, which can be used for further development of models for simplifying texts in Slovenian. We used the slovene T5 model, which is pretrained on other tasks. Namely, the model uses machine learning with knowledge transfer using deep neural networks with an encoder-decoder architecture. To find good values of hyperparameters and evaluate the performance of the system, we used automatic measures ROUGE and BERTScore, which are high and indicate a good performance of the system. The system generates single-clause or simple multi-clause sentences and does not use adverbs or special symbols. From the syntactic simplicity point of view, the system is successful, but we assessed its success in more detail with the help of human evaluation using a questionnaire that could be used to check the comprehensibility and meaningfulness of automatically generated sentences in further studies. With the questionnaire, we found that the model was not successful in generating comprehensible paragraphs. Most reviewers found them to be almost or completely unintelligible. We also investigated the comprehensibility criteria for automatically generated texts and found that the important comprehensibility criteria are conciseness, linguistic correctness, lexical simplicity, syntactic simplicity, coherence and summary relevance. Our system performed the best in syntactic simplicity and lexical simplicity, and the worst in summary relevance, coherence and conciseness. The system is partly useful as an aid to simplifiers, and could potentially be used in combination with summarization to provide simpler vocabulary and simple syntactic structure.
Sekundarne ključne besede: Kognitivna znanost;Obdelava naravnega jezika (računalništvo);Nevronske mreže (nevrobiologija);Univerzitetna in visokošolska dela;
Vrsta datoteke: application/pdf
Vrsta dela (COBISS): Magistrsko delo/naloga
Komentar na gradivo: Univ. v Ljubljani, Pedagoška fak., Skupni interdisciplinarni program druge stopnje Kognitivna znanost, v sodelovanju z Universität Wien, Univerzita Komenského v Bratislave in Eötvös Loránd Tudományegyetem
Strani: 52 str.
ID: 16478437