diplomsko delo
Jan Bajt (Avtor), Marko Robnik Šikonja (Mentor)

Povzetek

V diplomskem delu primerjamo slovenske medije s pomočjo analize tematik in sentimenta člankov. Želeli smo analizirati različna stališča medijev do specifičnih političnih dogodkov oziroma tematik. Tematike smo modelirali z modelom LDA, s katerim smo v množici slovenskih člankov poiskali tiste s politično vsebino. Za nalogo zaznavanja sentimenta smo prilagodili model SloBERTa in ga uporabili pri klasifikaciji izbranih člankov v eno izmed treh oznak (pozitivno, nevtralno, negativno). Primerjavo medijev izvedemo na nekaj različnih političnih temah, kjer opazimo nekaj razlik med skupinami medijev. Rezultate predstavimo in izpostavimo nekaj slabosti našega sistema ter podamo predloge za izboljšavo.

Ključne besede

obdelava naravnega jezika;model BERT;latentna Dirichletova alokacija;modeliranje tematik;detekcija sentimenta;slovenski mediji;računalništvo in informatika;univerzitetni študij;diplomske naloge;

Podatki

Jezik: Slovenski jezik
Leto izida:
Tipologija: 2.11 - Diplomsko delo
Organizacija: UL FRI - Fakulteta za računalništvo in informatiko
Založnik: [J. Bajt]
UDK: 004.8:81'322(043.2)
COBISS: 77669123 Povezava se bo odprla v novem oknu
Št. ogledov: 369
Št. prenosov: 149
Ocena: 0 (0 glasov)
Metapodatki: JSON JSON-RDF JSON-LD TURTLE N-TRIPLES XML RDFA MICRODATA DC-XML DC-RDF RDF

Ostali podatki

Sekundarni jezik: Angleški jezik
Sekundarni naslov: Topic and sentiment analysis of Slovene media using natural language processing tools
Sekundarni povzetek: We compare topics covered by Slovenian media by analysing sentiment of the articles. We aim to analyse different stances of media towards specific political events or topics. We used LDA model for topic modeling and based on results, we selected articles with political content. For the sentiment analysis task we fine-tuned Slovenian SloBERTa model which we used to classify articles in one of three sentiment labels (positive, neutral, negative). We compare the media on a few political topics, where we notice differences between media. We present the results, highlight weaknesses of our system and suggest improvements.
Sekundarne ključne besede: natural language processing;model BERT;latent Dirichlet allocation;topic modeling;sentiment detection;Slovenian media;computer and information science;diploma;Računalniško jezikoslovje;Mediji;Umetna inteligenca;Računalništvo;Univerzitetna in visokošolska dela;
Vrsta dela (COBISS): Diplomsko delo/naloga
Študijski program: 1000468
Konec prepovedi (OpenAIRE): 1970-01-01
Komentar na gradivo: Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani: 47 str.
ID: 13394699