master's thesis

Abstract

Text summarization is a process of reducing a given text to a concise and fluent shorter version. With rapidly increasing amounts of textual data, automatic text summarization could save time and reduce work. This task is non-trivial since it requires knowledge of vocabulary, semantics and cognitive processing. Pre-trained language models such as BERT contain extensive language knowledge. They can be used to transfer models trained in resource-rich languages to low-resource languages. In this work, we leverage knowledge of two BERT models: CroSloEngual BERT and multilingual BERT for transfer learning. We test extractive and abstractive summarization approaches that extend BERT architecture. We test the proposed approach on dataset of Croatian comments without summaries. We evaluate models using ROUGE and BERTScore and perform human evaluation. Trained abstractive models are able to detect keywords and a general topic, but struggle with the languages not present in the training data and produce false information. Extractive summarization models are reliable and have a good coverage of topics and contain important sentences.

Keywords

word embedding;cross-lingual embeddings;low-resource languages;abstractive summarization;extractive summarization;deep neural networks;language model;transfer learning;computer science;computer and information science;master's degree;

Data

Language: English
Year of publishing:
Typology: 2.09 - Master's Thesis
Organization: UL FRI - Faculty of Computer and Information Science
Publisher: [K. Milačić]
UDC: 004.8:81(043.2)
COBISS: 40174851 Link will open in a new window
Views: 926
Downloads: 160
Average score: 0 (0 votes)
Metadata: JSON JSON-RDF JSON-LD TURTLE N-TRIPLES XML RDFA MICRODATA DC-XML DC-RDF RDF

Other data

Secondary language: Slovenian
Secondary title: Povzemanje spletnih komentarjev
Secondary abstract: Povzemanje besedila je postopek krčenja besedila na tekočo krajšo različico. Ker se obseg besedilnih podatkov hitro povečuje, lahko samodejno povzemanje besedil uporabnikom prihrani čas in zmanjša kognitivno obremenitev. Naloga zahteva poznavanje besedišča in semantike. Vnaprej naučeni veliki jezikovni modeli, kot je BERT, vsebujejo obsežno znanje jezika. Uporabljajo se lahko za prenos znanja iz modelov, naučenih na jezikih, bogatih z viri, v jezike z malo viri. V tem delu za medjezikovni prenos izkoriščamo znanje dveh modelov tipa BERT: trojezičnega hrvaško-slovensko-angleškega in večjezičnega modela. Preizkušamo ekstraktivne in abstraktivne pristope povzemanja, ki razširjajo arhitekturo BERT. Modele preizkusimo na podatkovnih množicah hrvaških komentarjev, ki nimajo povzetkov. Rezultate ocenjujemo z uporabo metrik ROUGE in BERTScore ter s človeškim vrednotenjem. Naučeni abstraktivni modeli ustvarjajo dobre povzetke v jezikih, v katerih so naučeni. V jezikih, ki niso bili vključeni v učno množico so manj uspešni, zaznajo ključne besede in splošno tematiko, ampak vključujejo pa tudi napačne podatke. Modeli ekstraktivnega povzemanja so zanesljivi, dobro pokrivajo tematike ter vsebujejo dejansko pomembne stavke.
Secondary keywords: vložitve besed;medjezikovna vložitev;jeziki z malo viri;abstraktivno povzemanje;ekstraktivno povzemanje;globoke nevronske mreže;jezikovni modeli;učenje s prenosom znanja;računalništvo;računalništvo in informatika;magisteriji;
Type (COBISS): Master's thesis/paper
Study programme: 1000471
Embargo end date (OpenAIRE): 1970-01-01
Thesis comment: Univ. v Ljubljani, Fak. za računalništvo in informatiko
Pages: VIII, 78 str.
ID: 12152213