doctoral dissertation
Jože Bučar (Author), Janez Povh (Mentor), Martin Žnidaršič (Co-mentor)

Abstract

Sentiment based classification of the web texts

Keywords

news corpus;sentiment analysis;lexicon;corpus linguistics;machine learning;document classification;monitoring sentiment dynamics;

Data

Language: English
Year of publishing:
Typology: 2.08 - Doctoral Dissertation
Organization: FIŠ - Faculty of Information Studies
Publisher: [J. Bučar]
UDC: 004.85:004.774:81'322(043.3)
COBISS: 2048474131 Link will open in a new window
Views: 1
Downloads: 0
Average score: 0 (0 votes)
Metadata: JSON JSON-RDF JSON-LD TURTLE N-TRIPLES XML RDFA MICRODATA DC-XML DC-RDF RDF

Other data

Secondary language: Slovenian
Secondary title: Klasifikacija spletnih besedil na osnovi izraženosti sentimenta
Secondary abstract: Napovedovanje dogodkov v bližnji ali daljni prihodnosti je od nekdaj veljalo za zahtevno. Ljudje se zanimajo za napovedi vremena, bližajočih se naravnih katastrof, gospodarskih, političnih in socialnih sprememb, kot tudi za trende v razvoju tehnologij, prodajo izdelkov in napovedovanje športnih izidov. Na svetovnem spletu se vsak dan objavi ogromna količina podatkov. Praktično smo zasuti z različnimi vrstami podatkov, ki izhajajo iz področij znanosti, zdravstva, financ, poslovanja, demografije, zgodovine in drugih, pričemer nam v postopkih obdelave podatkov običajno primanjkuje človeških virov. Kljub vsemu si prizadevamo pridobiti dragocene informacije iz tega kaotičnega skupka podatkov, z namenom, da bi lahko v prihodnje izboljšali strateške odločitve tako posameznikov kot podjetij. Napovedovanje trendov in dogodkov v prihodnosti je postalo laže in bolj učinkovito, še zlasti s sodelovanjem med znanstveniki z različnih področij. Analiza sentimenta spletnih besedil je zanimivo in relevantno raziskovalno področje. Cilj raziskav v sklopu te disertacije je izdelava posebnih jezikovnih virov za analizo sentimenta, ocena učinkovitosti klasifikacijskih metod in spremljanje dinamike sentimenta, z namenom, da pripomoremo k boljšemu računalniškem razumevanju besedil v slovenskem jeziku. V okviru te raziskave so opisani postopki za izgradnjo (s sentimentom) označenih korpusov novic in leksikona za analizo sentimenta v slovenskem jeziku. Poleg dostopnosti do razvitih jezikovnih virov so opisani tudi metodologija in orodja, ki so bila za to potrebna. Korpusi vsebujejo več kot 250 tisoč spletnih besedil ter vsebujejo politična, gospodarska in finančna besedila, ki so bila objavljena med 1 septembrom 2007 in 31 januarjem 2016 s strani petih spletnih medijev v Sloveniji. Dokumenti so bili označeni na treh nivojih, tj. na ravni dokumenta, na ravni odstavkov in na ravni stavkov. Več kot deset tisoč dokumentov je bilo ročno označenih kot pozitivni, negativni in nevtralni. Leksikon je bil zgrajen na osnovi označenega korpusa besedil. Vsebuje več kot 25 tisoč besed z dodeljenim sentimentom. Je prvi leksikon za analizo sentimenta v slovenščini, ki temelji na ročnem označevanju slovenskih besedil. Podrobno so opisani postopki izgradnje jezikovnih virov, ročnega označevanja ter njihove lastnosti. Vsi viri so javno dostopni pod licenco Creative Commons. V nadaljevanju je predstavljena študija ocene učinkovitosti klasifikacijskih metod, ki daje spodbudne rezultate. Pri klasifikaciji dokumentov se Naivni (večrazsežnostni) Bayesov klasifikator in Metoda podpornih vektorjev izkažeta kot najbolj učinkoviti metodi z vidika časovne zahtevnosti in različnih mer točnosti. Prav tako segmentacija besedil na manjše dele, kot na primer stavke, pripomore k boljšim rezultatom klasifikacije. Pri klasifikaciji dokumentov v dva razreda (pozitiven in negativen) dosežemo F1-oceno 97,85%, pri klasifikaciji dokumentov v tri razrede (pozitiven, negativen in nevtralen) pa 77,76%. Principe analize sentimenta smo uspešno uporabili tudi pri ocenjevanju deleža pozitivnih, negativnih in nevtralnih novic izbranih spletnih medijev ter pri spremljanju dinamike sentimenta. V okviru ocenjevanja pozitivnih, negativnih in nevtralnih novic je bilo ugotovljeno, da je približno polovica izmed vseh pridobljenih novic nevtralnih. V splošnem je delež negativnih novic dvakrat večji od deleža pozitivnih novic. Študija dinamike sentimenta je pokazala, da je v povprečju sentiment močneje izražen na začetku dokumentov in izgublja svojo izraženost proti koncu dokumentov.
Secondary keywords: korpus novic;analiza sentimenta;leksikon;korpusna lingvistika;strojno učenje;klasifikacija dokumentov;dinamika sentimanta;spremljanje;disertacije;
Type (COBISS): Doctoral dissertation
Thesis comment: Fakulteta za informacijske študije v Novem mestu
Source comment: Na ov.: Doctoral Dissertation; Besedilo v angl., obsežen povzetek v slov.;
Pages: XXXIII, 151 str.
ID: 10954889
Recommended works:
, diplomsko delo visokošolskega strokovnega študijskega programa