Detekcija političnega prepričanja v novicah z uporabo velikih jezikovnih modelov

diplomsko delo

Aljaž Potočnik (Avtor), Marko Robnik Šikonja (Mentor)

Povzetek

V diplomskem delu analiziramo pristranskost slovenskih novičarskih medijev do politično-ideoloških tem ter oseb, ki se pogosto pojavljajo v njih. Članke želimo klasificirati v razrede (proti, za, ni) glede na pristranskost oziroma naklonjenost avtorja neki temi ali osebi. Detekcija pristranskosti v slovenskem jeziku še ni rešena, saj ne obstaja podatkovna množica za ta problem. Za učenje naših modelov smo uporabili javno dostopno označeno učno množico objav na omrežju Twitter. Uporabili smo angleško in prevedeno slovensko verzijo te učne množice. Sami smo za evalvacijo označili 150 slovenskih člankov. Preizkusimo dva klasifikacijska modela, ki temeljita na modelu BERT, SloBERTa in CroSloEngualBERT. Poizkusi kažejo precejšnje razlike med tematikami. Večina modelov najbolje napoveduje na celotnih člankih. Najboljše rezultate smo dobili na tematiki feminizem z mero F1 enako 0,58 najslabše pa na tematiki ateizem z mero F1 enako 0,33.

Ključne besede

detekcija pristrankosti;model BERT;večjezikovni modeli;medjezikovni prenos;CroSloEngualBERT;SloBERTa;univerzitetni študij;diplomske naloge;

Podatki

Jezik:	Slovenski jezik
Leto izida:	2023
Tipologija:	2.11 - Diplomsko delo
Organizacija:	UL FRI - Fakulteta za računalništvo in informatiko
Založnik:	[A. Potočnik]
UDK:	004.85:81'322:32(043.2)
COBISS:	142949123
Št. ogledov:	58
Št. prenosov:	21
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Angleški jezik
Sekundarni naslov:	Political stance detection in news using large language models
Sekundarni povzetek:	We analyse the bias of Slovenian news media towards political-ideological topics and people who often appear in them. We want to classify the articles into classes (against, for, neutral) according to authors' inclination towards a certain topic or person. Stance detection in Slovene language is not yet solved, as there is no dataset for this problem. To learn our models, we used a publicly available labelled training set of Twitter posts in English and in the translated Slovenian version. We test two classification models based on the BERT model, SloBERTa and CroSloEngualBERT. The experiments show significant differences between the topics. Most models predict best on full articles. The best results were obtained on the topic of feminism with the F1-measure of 0,58 and the worst on the topic of atheism with the F1-measure of 0,33.
Sekundarne ključne besede:	natural language processing;stance detection;BERT model;multilanguage models;crosslingual transfer;CroSloEngualBERT;SloBERTa;computer science;computer and information science;diploma;Obdelava naravnega jezika (računalništvo);Računalniško jezikoslovje;Mediji in politika;Računalništvo;Univerzitetna in visokošolska dela;
Vrsta dela (COBISS):	Diplomsko delo/naloga
Študijski program:	1000468
Konec prepovedi (OpenAIRE):	1970-01-01
Komentar na gradivo:	Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani:	46 str.
ID:	17908353