Automatic summarization of legal documents

master's thesis

Andrej Miščič (Avtor), Slavko Žitnik (Mentor)

Povzetek

The adoption of modern natural language processing is crucial for the legal industry to process large amounts of text data and provide efficient services. Legal research is one the most impacted areas, allowing legal practitioners to find relevant legislation and case law faster. Intending to provide summaries of long legal documents, we tackle the task of automatic summarization of Slovene judicial decisions. We propose GloBerta-Sum, an extractive approach based on recently introduced Slovene pretrained language models. It exploits the structure of judicial decisions to deal with their length and is trained on proposed soft labels to mitigate the effect of a high sentence compression ratio. We additionally combine GloBerta-Sum with an abstractive model to form a hybrid system capable of producing summaries in a paraphrasing manner. We evaluate our approaches using automatic metrics and human evaluation. Results show that our approaches match the relevance of human written summaries, albeit producing a bit less coherent summaries containing more redundant information. Nevertheless, we believe our work highlights the potential of using the proposed methodology to equip legal documents with summaries that allow legal practitioners to quickly assess their relevance.

Ključne besede

automatic text summarization;extractive summarization;abstractive summarization;legal documents;natural language processing;computer science;master's thesis;

Podatki

Jezik:	Angleški jezik
Leto izida:	2022
Tipologija:	2.09 - Magistrsko delo
Organizacija:	UL FRI - Fakulteta za računalništvo in informatiko
Založnik:	[A. Miščič]
UDK:	004.8:81'322(043.2)
COBISS:	130546947
Št. ogledov:	38
Št. prenosov:	17
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Slovenski jezik
Sekundarni naslov:	Avtomatsko povzemanje pravnih besedil
Sekundarni povzetek:	Uporaba sodobnih pristopov obdelave naravnega jezika je ključna, da lahko pravna industrija obdeluje velike količine besedil in zagotavlja učinkovite storitve. Pravne raziskave so področje, na katerega imajo ti pristopi največji vpliv, saj pravnikom omogočajo hitrejše iskanje ustrezne zakonodaje in sodne prakse. S ciljem zagotoviti povzetke dolgih pravnih besedil v delu obravnavamo avtomatsko povzemanje slovenskih sodnih odločb. Predlagamo GloBerto-Sum, ekstraktivni pristop, ki temelji na nedavno predstavljenih slovenskih vnaprej naučenih jezikovnih modelih. Da lahko obravnava daljše dokumente, se naš pristop zanaša na strukturo sodnih odločb. Naučen je na mehkih oznakah, kar ublaži težave, ki jih prinaša visoko razmerje med številom povedi v dokumentih in povzetkih. GloBerto-Sum dodatno združimo z abstraktivnim modelom - tako pridobljen hibridni pristop je zmožen generirati povzetke s parafriziranjem. Rezultati kažejo, da naši pristopi generirajo povzetke, ki so po ustreznosti na ravni ročno napisanih, a so lahko nekoliko manj koherentni in vsebujejo več redundantnih informacij. Kljub temu menimo, da z našim delom pokažemo možnost uporabe predlagane metodologije za tvorjenje povzetkov, ki pravnikom omogočajo hitrejši pregled pravnih besedil.
Sekundarne ključne besede:	avtomatsko povzemanje besedil;ekstraktivno povzemanje;abstraktivno povzemanje;pravna besedila;magisteriji;Obdelava naravnega jezika (računalništvo);Računalniško jezikoslovje;Računalništvo;Univerzitetna in visokošolska dela;
Vrsta dela (COBISS):	Magistrsko delo/naloga
Študijski program:	1000471
Konec prepovedi (OpenAIRE):	1970-01-01
Komentar na gradivo:	Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani:	VI, 83 str.
ID:	17080940