master's thesis
Povzetek
Law and court documents may contain sensitive information that should not be accessible to everyone. Most of the publicly available documents are only partially anonymized or use a general anonymization system that makes the once anonymized data unsuitable for further research.
We focus on developing several types of anonymization systems, with implementing NER, POS tagging, coreference resolution as well as specific anonymization rules that target Slovene entities. The anonymization models are integrated into a publicly available web tool, which allows convenient and fast anonymization in four different modes, depending on the sensitivity of the documents.
The obtained results prove that the developed models can successfully anonymize Slovene documents. The anonymized documents can be distributed without violating someone's privacy and can be used in various research in the future.
Ključne besede
text anonymization;Slovenian texts;de-identification;deep learning;transformer models;computer science;master's thesis;
Podatki
Jezik: |
Angleški jezik |
Leto izida: |
2022 |
Tipologija: |
2.09 - Magistrsko delo |
Organizacija: |
UL FRI - Fakulteta za računalništvo in informatiko |
Založnik: |
[V. Petreski] |
UDK: |
004.8:81'322(043.2) |
COBISS: |
128899331
|
Št. ogledov: |
43 |
Št. prenosov: |
8 |
Ocena: |
0 (0 glasov) |
Metapodatki: |
|
Ostali podatki
Sekundarni jezik: |
Slovenski jezik |
Sekundarni naslov: |
Anonimizacija slovenskih besedil |
Sekundarni povzetek: |
Pravni in sodni dokumenti lahko vsebujejo občutljive podatke, ki ne bi smeli biti dostopni vsem. Večina javno dostopnih dokumentov je le delno anonimiziranih ali pa uporablja splošni sistem anonimizacije, zaradi česar so enkrat anonimizirani podatki neprimerni za nadaljnje raziskovanje.
Osredotočeni smo na razvoj več tipov anonimizacijskih sistemov, z implementacijo NER, POS označevanja, koreferenčne ločljivosti ter specifičnih anonimizacijskih pravil, ki ciljajo na slovenske subjekte. Modeli anonimizacije so integrirani v javno dostopno spletno orodje, ki omogoča priročno in hitro anonimizacijo v štirih različnih načinih, odvisno od občutljivosti dokumentov.
Dobljeni rezultati dokazujejo, da lahko razviti modeli uspešno anonimizirajo slovenske dokumente. Anonimizirane dokumente je mogoče distribuirati brez poseganja v zasebnost nekoga in jih je mogoče uporabiti v različnih raziskavah v prihodnosti. |
Sekundarne ključne besede: |
anonimizacija besedila;slovenščina;deidentifikacija;transformer model;magisteriji;Globoko učenje (strojno učenje);Računalniško jezikoslovje;Računalništvo;Univerzitetna in visokošolska dela; |
Vrsta dela (COBISS): |
Magistrsko delo/naloga |
Študijski program: |
1000471 |
Konec prepovedi (OpenAIRE): |
1970-01-01 |
Komentar na gradivo: |
Univ. v Ljubljani, Fak. za računalništvo in informatiko |
Strani: |
VIII, 65 str. |
ID: |
16821810 |