master's thesis
Abstract
The adoption of modern natural language processing is crucial for the legal industry to process large amounts of text data and provide efficient services. Legal research is one the most impacted areas, allowing legal practitioners to find relevant legislation and case law faster. Intending to provide summaries of long legal documents, we tackle the task of automatic summarization of Slovene judicial decisions.
We propose GloBerta-Sum, an extractive approach based on recently introduced Slovene pretrained language models. It exploits the structure of judicial decisions to deal with their length and is trained on proposed soft labels to mitigate the effect of a high sentence compression ratio. We additionally combine GloBerta-Sum with an abstractive model to form a hybrid system capable of producing summaries in a paraphrasing manner.
We evaluate our approaches using automatic metrics and human evaluation. Results show that our approaches match the relevance of human written summaries, albeit producing a bit less coherent summaries containing more redundant information. Nevertheless, we believe our work highlights the potential of using the proposed methodology to equip legal documents with summaries that allow legal practitioners to quickly assess their relevance.
Keywords
automatic text summarization;extractive summarization;abstractive summarization;legal documents;natural language processing;computer science;master's thesis;
Data
Language: |
English |
Year of publishing: |
2022 |
Typology: |
2.09 - Master's Thesis |
Organization: |
UL FRI - Faculty of Computer and Information Science |
Publisher: |
[A. Miščič] |
UDC: |
004.8:81'322(043.2) |
COBISS: |
130546947
|
Views: |
38 |
Downloads: |
17 |
Average score: |
0 (0 votes) |
Metadata: |
|
Other data
Secondary language: |
Slovenian |
Secondary title: |
Avtomatsko povzemanje pravnih besedil |
Secondary abstract: |
Uporaba sodobnih pristopov obdelave naravnega jezika je ključna, da lahko pravna industrija obdeluje velike količine besedil in zagotavlja učinkovite storitve. Pravne raziskave so področje, na katerega imajo ti pristopi največji vpliv, saj pravnikom omogočajo hitrejše iskanje ustrezne zakonodaje in sodne prakse. S ciljem zagotoviti povzetke dolgih pravnih besedil v delu obravnavamo avtomatsko povzemanje slovenskih sodnih odločb.
Predlagamo GloBerto-Sum, ekstraktivni pristop, ki temelji na nedavno predstavljenih slovenskih vnaprej naučenih jezikovnih modelih. Da lahko obravnava daljše dokumente, se naš pristop zanaša na strukturo sodnih odločb. Naučen je na mehkih oznakah, kar ublaži težave, ki jih prinaša visoko razmerje med številom povedi v dokumentih in povzetkih. GloBerto-Sum dodatno združimo z abstraktivnim modelom - tako pridobljen hibridni pristop je zmožen generirati povzetke s parafriziranjem.
Rezultati kažejo, da naši pristopi generirajo povzetke, ki so po ustreznosti na ravni ročno napisanih, a so lahko nekoliko manj koherentni in vsebujejo več redundantnih informacij. Kljub temu menimo, da z našim delom pokažemo možnost uporabe predlagane metodologije za tvorjenje povzetkov, ki pravnikom omogočajo hitrejši pregled pravnih besedil. |
Secondary keywords: |
avtomatsko povzemanje besedil;ekstraktivno povzemanje;abstraktivno povzemanje;pravna besedila;magisteriji;Obdelava naravnega jezika (računalništvo);Računalniško jezikoslovje;Računalništvo;Univerzitetna in visokošolska dela; |
Type (COBISS): |
Master's thesis/paper |
Study programme: |
1000471 |
Embargo end date (OpenAIRE): |
1970-01-01 |
Thesis comment: |
Univ. v Ljubljani, Fak. za računalništvo in informatiko |
Pages: |
VI, 83 str. |
ID: |
17080940 |