magistrsko delo
Povzetek
Povzemanje besedil naslavlja problem naraščujoče količine tekstovnih podatkov, v katerih želimo odkrivati pomembne informacije, npr. med raziskovanjem dokumentov želimo proces izbire poenostaviti in se odločati le na podlagi povzetkov. V delu smo se posvetili problemu povzemanja slovenskih besedil. Naš cilj je generiranje kvalitetnega in berljivega povzetka. Problema smo se lotili z uporabo globokih nevronskih mrež in arhitekture zaporedje v zaporedje. Razvili smo devet modelov, ki se razlikujejo po tipu rekurenčnih celic, številu rekurenčnih celic, številu nivojev in dodatnih mehanizmih, kot sta mehanizem pozornosti in mehanizem kopiranja. Uspešnost povzemanja smo evalvirali z metrikama ROUGE in BERTScore. Med trenutno obstoječimi slovenskimi povzemalniki naš najuspešnejši model dosega najboljše rezultate.
Ključne besede
obdelava naravnega jezika;povzemanje besedil;nevronske mreže;globoko učenje;umetna inteligenca;računalništvo;računalništvo in informatika;magisteriji;
Podatki
Jezik: |
Slovenski jezik |
Leto izida: |
2019 |
Tipologija: |
2.09 - Magistrsko delo |
Organizacija: |
UL FRI - Fakulteta za računalništvo in informatiko |
Založnik: |
[R. Zidarn] |
UDK: |
004.89(043.2) |
COBISS: |
1538516419
|
Št. ogledov: |
745 |
Št. prenosov: |
237 |
Ocena: |
0 (0 glasov) |
Metapodatki: |
|
Ostali podatki
Sekundarni jezik: |
Angleški jezik |
Sekundarni naslov: |
Automatic text summarization of Slovene texts using deep neural networks |
Sekundarni povzetek: |
Text summarization allows us to extract useful information from a vast amount of textual documents. For example, during research we want to simplify the paper selection process by reading only abstracts instead of whole articles. In this thesis we focus on the problem of summarization of Slovene texts. Our goal is to generate an accurate and readable summary. We tackle the problem by applying a Sequence2Sequence architecture and deep neural networks. We developed nine models, which differ from one another by the type of recurrent cells, number of recurrent cells, number of levels and additional mechanisms, such as attention and copying. For evaluation we used ROUGE and BERTScore evaluation metrics. Our most succesful model produces the best results among Slovene text summarizers. |
Sekundarne ključne besede: |
natural language processing;text summarization;neural networks;deep learning;artificial intelligence;computer science;computer and information science;master's degree; |
Vrsta dela (COBISS): |
Magistrsko delo/naloga |
Študijski program: |
1000471 |
Konec prepovedi (OpenAIRE): |
1970-01-01 |
Komentar na gradivo: |
Univ. v Ljubljani, Fak. za računalništvo in informatiko |
Strani: |
69 str. |
ID: |
11389987 |