diplomsko delo
Brin Colnar (Author), Marko Robnik Šikonja (Mentor)

Abstract

V okviru diplomske naloge sem razvil model, ki povzema daljša besedila v slovenskem jeziku. Pri tem sem si pomagal z obstoječimi vnaprej naučenimi nevronskimi mrežami tipa transformer, kot sta mBART in Longformer. Za učenje sem uporabil podatkovno množico akademskih del in njihovih povzetkov KAS 2.0. Model sem evalviral z obstoječimi merami za ocenjevanje povzetkov in tudi ročno. Kvalitativno gledano model za nekatera besedila (okoli 36%) vrne dober povzetek, ki vsebuje pomembne informacije iz besedila, medtem ko je za večino besedil (okoli 63%) manj uspešen.

Keywords

globoke nevronske mreže;avtomatsko povzemanje daljših besedil;slovenski jezik;univerzitetni študij;diplomske naloge;

Data

Language: Slovenian
Year of publishing:
Typology: 2.11 - Undergraduate Thesis
Organization: UL FRI - Faculty of Computer and Information Science
Publisher: [B. Colnar]
UDC: 004.8:81'322.2(043.2)
COBISS: 123603203 Link will open in a new window
Views: 35
Downloads: 17
Average score: 0 (0 votes)
Metadata: JSON JSON-RDF JSON-LD TURTLE N-TRIPLES XML RDFA MICRODATA DC-XML DC-RDF RDF

Other data

Secondary language: English
Secondary title: Automatic summarization of long texts in Slovene
Secondary abstract: I developed a model that summarises long texts in Slovenian. I used existing pre-trained transformer based neural networks such as mBART and Longformer. I used the KAS 2.0 dataset of academic papers and their abstracts. I evaluated the model using existing summary evaluation criteria and also manually. Qualitatively, for some texts (around 36%) the model returns a good summary containing the relevant information from the text, while for most texts (around 63%) it performs less well.
Secondary keywords: Obdelava naravnega jezika (računalništvo);Računalniško jezikoslovje;Nevronske mreže (računalništvo);Računalništvo;Univerzitetna in visokošolska dela;
Type (COBISS): Bachelor thesis/paper
Study programme: 1000468
Embargo end date (OpenAIRE): 1970-01-01
Thesis comment: Univ. v Ljubljani, Fak. za računalništvo in informatiko
Pages: 62 str.
ID: 16469444