Sekundarni povzetek: |
Napovedovanje dogodkov v bližnji ali daljni prihodnosti je od nekdaj veljalo za zahtevno. Ljudje se zanimajo za napovedi vremena, bližajočih se naravnih katastrof, gospodarskih, političnih in socialnih sprememb, kot tudi za trende v razvoju tehnologij, prodajo izdelkov in napovedovanje športnih izidov. Na svetovnem spletu se vsak dan objavi ogromna količina podatkov. Praktično smo zasuti z različnimi vrstami podatkov, ki izhajajo iz področij znanosti, zdravstva, financ, poslovanja, demografije, zgodovine in drugih, pričemer nam v postopkih obdelave podatkov običajno primanjkuje človeških virov. Kljub vsemu si prizadevamo pridobiti dragocene informacije iz tega kaotičnega skupka podatkov, z namenom, da bi lahko v prihodnje izboljšali strateške odločitve tako posameznikov kot podjetij. Napovedovanje trendov in dogodkov v prihodnosti je postalo laže in bolj učinkovito, še zlasti s sodelovanjem med znanstveniki z različnih področij.
Analiza sentimenta spletnih besedil je zanimivo in relevantno raziskovalno področje. Cilj raziskav v sklopu te disertacije je izdelava posebnih jezikovnih virov za analizo sentimenta, ocena učinkovitosti klasifikacijskih metod in spremljanje dinamike sentimenta, z namenom, da pripomoremo k boljšemu računalniškem razumevanju besedil v slovenskem jeziku.
V okviru te raziskave so opisani postopki za izgradnjo (s sentimentom) označenih korpusov novic in leksikona za analizo sentimenta v slovenskem jeziku. Poleg dostopnosti do razvitih jezikovnih virov so opisani tudi metodologija in orodja, ki so bila za to potrebna. Korpusi vsebujejo več kot 250 tisoč spletnih besedil ter vsebujejo politična, gospodarska in finančna besedila, ki so bila objavljena med 1 septembrom 2007 in 31 januarjem 2016 s strani petih spletnih medijev v Sloveniji. Dokumenti so bili označeni na treh nivojih, tj. na ravni dokumenta, na ravni odstavkov in na ravni stavkov. Več kot deset tisoč dokumentov je bilo ročno označenih kot pozitivni, negativni in nevtralni. Leksikon je bil zgrajen na osnovi označenega korpusa besedil. Vsebuje več kot 25 tisoč besed z dodeljenim sentimentom. Je prvi leksikon za analizo sentimenta v slovenščini, ki temelji na ročnem
označevanju slovenskih besedil. Podrobno so opisani postopki izgradnje jezikovnih virov, ročnega označevanja ter njihove lastnosti. Vsi viri so javno dostopni pod licenco Creative Commons. V nadaljevanju je predstavljena študija ocene učinkovitosti klasifikacijskih metod, ki daje spodbudne rezultate. Pri klasifikaciji dokumentov se Naivni (večrazsežnostni) Bayesov klasifikator in Metoda podpornih vektorjev izkažeta kot najbolj učinkoviti metodi z vidika časovne zahtevnosti in različnih mer točnosti. Prav tako segmentacija besedil na manjše dele, kot na primer stavke, pripomore k boljšim rezultatom klasifikacije. Pri klasifikaciji dokumentov v dva razreda (pozitiven in negativen) dosežemo F1-oceno 97,85%, pri klasifikaciji dokumentov v tri razrede (pozitiven, negativen in nevtralen) pa 77,76%.
Principe analize sentimenta smo uspešno uporabili tudi pri ocenjevanju deleža pozitivnih, negativnih in nevtralnih novic izbranih spletnih medijev ter pri spremljanju dinamike sentimenta. V okviru ocenjevanja pozitivnih, negativnih in nevtralnih novic je bilo ugotovljeno, da je približno polovica izmed vseh pridobljenih novic nevtralnih. V splošnem je delež negativnih novic dvakrat večji od deleža pozitivnih novic. Študija dinamike
sentimenta je pokazala, da je v povprečju sentiment močneje izražen na začetku dokumentov in izgublja svojo izraženost proti koncu dokumentov. |