master's thesis

Povzetek

The penetration of modern language technologies into the legal industry is necessary for it to deal with large amounts of texts it produces. Search is a core feature allowing users to perform their work better and faster. The use of modern context-aware approaches can aid in many features related to search, by better quantifying similarity between text. As a solution, we propose a transformer-based model for creating document embeddings using two interlaced encoders. We train three models with various levels of interlacing and also inform one model of the relative location of each segment within the document. As no differences were detected in the training stage, the most feature rich model was selected and compared in human evaluation to a baseline doc2vec model on a task of recommending similar documents. Based on the results, doc2vec proved to be a better and more suitable model for the selected task. The testing outlined some key problems with the proposed model in terms of its concept of similarity, which does not match the requirements of legal document recommendation.

Ključne besede

document similarity;document recommendation;legal documents;long documents;natural language processing;transformer neural networks;computer science;master's thesis;

Podatki

Jezik: Angleški jezik
Leto izida:
Tipologija: 2.09 - Magistrsko delo
Organizacija: UL FRI - Fakulteta za računalništvo in informatiko
Založnik: [L. Vranješ]
UDK: 004.8:81'322(043.2)
COBISS: 125574147 Povezava se bo odprla v novem oknu
Št. ogledov: 26
Št. prenosov: 14
Ocena: 0 (0 glasov)
Metapodatki: JSON JSON-RDF JSON-LD TURTLE N-TRIPLES XML RDFA MICRODATA DC-XML DC-RDF RDF

Ostali podatki

Sekundarni jezik: Slovenski jezik
Sekundarni naslov: Podobnost poljubno dolgih pravnih besedil
Sekundarni povzetek: Uporaba sodobnih jezikovnih tehnologij v pravni industriji je potrebna, da se ta lažje spopade z velikimi količinami besedila, ki ga proizvede. Učinkovito iskanje je ena izmed ključnih rešitev, ki dovoljuje uporabnikom, da svoje delo upravljajo bolje in hitreje. Z boljšim zavedanjem konteksta lahko moderni pristopi izboljšajo mnogo funkcij povezanih z iskanjem. Kot rešitev predlagamo arhitekturo na osnovi nevronske mreže transformer, ki z uporabo dveh prekritih kodirnikov ustvari predstavitev dokumenta. Testirali smo tri modele z različnimi nivoji prekrivanja in eden model katerega informiramo o relativni lokaciji segmenta znotraj dokumenta. Med njimi na validacijski množici nismo zaznali razlik, zato smo za ročno testiranje uporabili najbolj dodelan model. V ročnem testiranju na nalogi predlaganja podobnih dokumentov, primerjamo naš izbrani model z modelom doc2vec. Rezultati kažejo, da je model doc2vec primerenejši za uporabo na testiranem problemu. Testiranje je pokazalo pomanjkljivosti predlaganega modela, še posebej v smislu predstavitve podobnosti, ki se ne ujema z zahtevanim v kontekstu priporočanja podobnih pravnih besedil.
Sekundarne ključne besede: podobnost dokumentov;predlaganje dokumentov;pravni dokumenti;dolgi dokumenti;nevronske mreže transformer;magisteriji;Obdelava naravnega jezika (računalništvo);Računalniško jezikoslovje;Računalništvo;Univerzitetna in visokošolska dela;
Vrsta dela (COBISS): Magistrsko delo/naloga
Študijski program: 1000471
Konec prepovedi (OpenAIRE): 1970-01-01
Komentar na gradivo: Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani: IV, 46 str.
ID: 16643704