master's thesis

Povzetek

Text summarization is a process of reducing a given text to a concise and fluent shorter version. With rapidly increasing amounts of textual data, automatic text summarization could save time and reduce work. This task is non-trivial since it requires knowledge of vocabulary, semantics and cognitive processing. Pre-trained language models such as BERT contain extensive language knowledge. They can be used to transfer models trained in resource-rich languages to low-resource languages. In this work, we leverage knowledge of two BERT models: CroSloEngual BERT and multilingual BERT for transfer learning. We test extractive and abstractive summarization approaches that extend BERT architecture. We test the proposed approach on dataset of Croatian comments without summaries. We evaluate models using ROUGE and BERTScore and perform human evaluation. Trained abstractive models are able to detect keywords and a general topic, but struggle with the languages not present in the training data and produce false information. Extractive summarization models are reliable and have a good coverage of topics and contain important sentences.

Ključne besede

word embedding;cross-lingual embeddings;low-resource languages;abstractive summarization;extractive summarization;deep neural networks;language model;transfer learning;computer science;computer and information science;master's degree;

Podatki

Jezik: Angleški jezik
Leto izida:
Tipologija: 2.09 - Magistrsko delo
Organizacija: UL FRI - Fakulteta za računalništvo in informatiko
Založnik: [K. Milačić]
UDK: 004.8:81(043.2)
COBISS: 40174851 Povezava se bo odprla v novem oknu
Št. ogledov: 926
Št. prenosov: 160
Ocena: 0 (0 glasov)
Metapodatki: JSON JSON-RDF JSON-LD TURTLE N-TRIPLES XML RDFA MICRODATA DC-XML DC-RDF RDF

Ostali podatki

Sekundarni jezik: Slovenski jezik
Sekundarni naslov: Povzemanje spletnih komentarjev
Sekundarni povzetek: Povzemanje besedila je postopek krčenja besedila na tekočo krajšo različico. Ker se obseg besedilnih podatkov hitro povečuje, lahko samodejno povzemanje besedil uporabnikom prihrani čas in zmanjša kognitivno obremenitev. Naloga zahteva poznavanje besedišča in semantike. Vnaprej naučeni veliki jezikovni modeli, kot je BERT, vsebujejo obsežno znanje jezika. Uporabljajo se lahko za prenos znanja iz modelov, naučenih na jezikih, bogatih z viri, v jezike z malo viri. V tem delu za medjezikovni prenos izkoriščamo znanje dveh modelov tipa BERT: trojezičnega hrvaško-slovensko-angleškega in večjezičnega modela. Preizkušamo ekstraktivne in abstraktivne pristope povzemanja, ki razširjajo arhitekturo BERT. Modele preizkusimo na podatkovnih množicah hrvaških komentarjev, ki nimajo povzetkov. Rezultate ocenjujemo z uporabo metrik ROUGE in BERTScore ter s človeškim vrednotenjem. Naučeni abstraktivni modeli ustvarjajo dobre povzetke v jezikih, v katerih so naučeni. V jezikih, ki niso bili vključeni v učno množico so manj uspešni, zaznajo ključne besede in splošno tematiko, ampak vključujejo pa tudi napačne podatke. Modeli ekstraktivnega povzemanja so zanesljivi, dobro pokrivajo tematike ter vsebujejo dejansko pomembne stavke.
Sekundarne ključne besede: vložitve besed;medjezikovna vložitev;jeziki z malo viri;abstraktivno povzemanje;ekstraktivno povzemanje;globoke nevronske mreže;jezikovni modeli;učenje s prenosom znanja;računalništvo;računalništvo in informatika;magisteriji;
Vrsta dela (COBISS): Magistrsko delo/naloga
Študijski program: 1000471
Konec prepovedi (OpenAIRE): 1970-01-01
Komentar na gradivo: Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani: VIII, 78 str.
ID: 12152213