Hate speech paraphraser

bachelor's thesis

Drejc Pesjak (Avtor), Zoran Bosnić (Mentor), Marko Robnik Šikonja (Komentor)

Povzetek

There is plenty of hate speech on the web, which is additionally enabled by the possibility to remain anonymous, and many forums as well as news websites are trying to fight against it with a large number of moderators that remove hateful comments. Due to large numbers of daily comments they use automated hate speech detection software. We propose a DPhate system, which outputs an unhateful alternative to the posted hateful comment. The system uses a series of pre-trained paraphrasing models, that generate nonhateful sentences. The automatic evaluation has shown that in 84.37% of cases at least one acceptable sentence is generated, whereas only 67.90% of rephrasals were deemed acceptable by human evaluators.

Ključne besede

hate speech;natural language processing;transformers;BERT models;machine learning;paraphrasing;computer and information science;diploma thesis;

Podatki

Jezik:	Angleški jezik
Leto izida:	2022
Tipologija:	2.11 - Diplomsko delo
Organizacija:	UL FRI - Fakulteta za računalništvo in informatiko
Založnik:	[D. Pesjak]
UDK:	004.8:81'322.2(043.2)
COBISS:	102617091
Št. ogledov:	127
Št. prenosov:	72
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Slovenski jezik
Sekundarni naslov:	Parafraziranje sovražnega govora
Sekundarni povzetek:	Splet je poln sovražnega govora, ki ga dodatno spodbuja možnost anonimnosti. Mnogi forumi in novičarske spletne strani se branijo z moderatorji, ki odstranijo škodljive komentarje. Ker je po navadi komentarjev veliko (več deset tisoč na dan), si moderatorji pomagajo s programi za avtomatsko zaznavanje sovražnega govora. V svoji diplomski nalogi predlagamo nov sistem DPhate, ki uporabniku ob objavi sovražnega komentarja predlaga nesovražno alternativo z ohranjenim pomenom. V sistemu uporabimo več prednaučenih modelov, ki s parafraziranjem generirajo nesovražne povedi. Avtomatska evalvacija je pokazala, da se v 84.37% generira vsaj en primeren stavek, medtem ko so generirane parafraze človeški evalvatorji ocenili za primerne v 67.90%.
Sekundarne ključne besede:	transformerji;modeli BERT;parafraziranje;računalništvo in informatika;univerzitetni študij;diplomske naloge;Sovražni govor;Obdelava naravnega jezika (računalništvo);Računalniško jezikoslovje;Strojno učenje;Računalništvo;Univerzitetna in visokošolska dela;
Vrsta dela (COBISS):	Diplomsko delo/naloga
Študijski program:	1000468
Konec prepovedi (OpenAIRE):	1970-01-01
Komentar na gradivo:	Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani:	32 str.
ID:	14808612