diplomsko delo
Povzetek
V diplomskem delu analiziramo pristranskost slovenskih novičarskih medijev do politično-ideoloških tem ter oseb, ki se pogosto pojavljajo v njih. Članke želimo klasificirati v razrede (proti, za, ni) glede na pristranskost oziroma naklonjenost avtorja neki temi ali osebi. Detekcija pristranskosti v slovenskem jeziku še ni rešena, saj ne obstaja podatkovna množica za ta problem. Za učenje naših modelov smo uporabili javno dostopno označeno učno množico objav na omrežju Twitter. Uporabili smo angleško in prevedeno slovensko verzijo te učne množice. Sami smo za evalvacijo označili 150 slovenskih člankov.
Preizkusimo dva klasifikacijska modela, ki temeljita na modelu BERT, SloBERTa in CroSloEngualBERT. Poizkusi kažejo precejšnje razlike med tematikami. Večina modelov najbolje napoveduje na celotnih člankih. Najboljše rezultate smo dobili na tematiki feminizem z mero F1 enako 0,58 najslabše pa na tematiki ateizem z mero F1 enako 0,33.
Ključne besede
detekcija pristrankosti;model BERT;večjezikovni modeli;medjezikovni prenos;CroSloEngualBERT;SloBERTa;univerzitetni študij;diplomske naloge;
Podatki
Jezik: |
Slovenski jezik |
Leto izida: |
2023 |
Tipologija: |
2.11 - Diplomsko delo |
Organizacija: |
UL FRI - Fakulteta za računalništvo in informatiko |
Založnik: |
[A. Potočnik] |
UDK: |
004.85:81'322:32(043.2) |
COBISS: |
142949123
|
Št. ogledov: |
58 |
Št. prenosov: |
21 |
Ocena: |
0 (0 glasov) |
Metapodatki: |
|
Ostali podatki
Sekundarni jezik: |
Angleški jezik |
Sekundarni naslov: |
Political stance detection in news using large language models |
Sekundarni povzetek: |
We analyse the bias of Slovenian news media towards political-ideological topics and people who often appear in them. We want to classify the articles into classes (against, for, neutral) according to authors' inclination towards a certain topic or person. Stance detection in Slovene language is not yet solved, as there is no dataset for this problem. To learn our models, we used a publicly available labelled training set of Twitter posts in English and in the translated Slovenian version. We test two classification models based on the BERT model, SloBERTa and CroSloEngualBERT. The experiments show significant differences between the topics. Most models predict best on full articles. The best results were obtained on the topic of feminism with the F1-measure of 0,58 and the worst on the topic of atheism with the F1-measure of 0,33. |
Sekundarne ključne besede: |
natural language processing;stance detection;BERT model;multilanguage models;crosslingual transfer;CroSloEngualBERT;SloBERTa;computer science;computer and information science;diploma;Obdelava naravnega jezika (računalništvo);Računalniško jezikoslovje;Mediji in politika;Računalništvo;Univerzitetna in visokošolska dela; |
Vrsta dela (COBISS): |
Diplomsko delo/naloga |
Študijski program: |
1000468 |
Konec prepovedi (OpenAIRE): |
1970-01-01 |
Komentar na gradivo: |
Univ. v Ljubljani, Fak. za računalništvo in informatiko |
Strani: |
46 str. |
ID: |
17908353 |