Nadzorovano odkrivanje predmeta tekstovnih vsebin z uporabo selekcijskih in statističnih metod

diplomsko delo

Sašo Hrnčić (Avtor), Tomaž Kosar (Mentor), Vili Podgorelec (Komentor)

Povzetek

Cilj diplomske naloge je izdelati preprost kategorizacijski sistem, ki zna nov tekstovni dokument čim natančneje uvrstiti v naprej definirane kategorije. Ena izmed funkcionalnosti sistema je prepoznavanje jezika, ki je bilo testirano na podatkovnih korpusih dokumentov Wikipedije, Europarla in jezikovnih modelov projekta LibTextCat. Kategorizacijski sistem je bil razširjen še na prepoznavanje v naprej definiranih tematikah korpusa 20 Newsgroups in Reuters-21578. Za predstavitev dokumentov smo uporabili n-gramsko tehniko, ki smo jo kombinirali s selekcijskimi in statističnimi metodami. Dosežene rezultate smo analizirali ter dokumentirali. Podrobneje smo predstavili problematiko, lastne izkušnje, lastnosti uporabljenih metod ter obstoječe raziskave.

Ključne besede

tekstovno kategoriziranje;n-grami;strojno učenje;teorija informacij;diplomske naloge;

Podatki

Jezik:	Slovenski jezik
Leto izida:	2016
Tipologija:	2.11 - Diplomsko delo
Organizacija:	UM FERI - Fakulteta za elektrotehniko, računalništvo in informatiko
Založnik:	S. Hrnčić
UDK:	004.05:004.5(043.2)
COBISS:	19991318
Št. ogledov:	730
Št. prenosov:	50
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Angleški jezik
Sekundarni naslov:	SUPERVISED TOPICS' DETECTION BASED ON FEATURE SELECTION AND STATISTICAL METHODS
Sekundarni povzetek:	The main goal of diploma work is to develop simple text classification system that is able to automatically classify a document into predefined categories as accurately as possible. One of the functionalities of the system is language detection that has been tested on documents of Wikipedia, Europarl and language models of project LibTextCat. Classification system has been expanded to identify predefine topics of the corpus 20 Newsgroups and Reuters-21578. For document presentation we used n-grams technique, which was combined with feature selection methods and statistical methods. The obtained results were analyzed and documented. We also present text classification problem, our experiences, features of used methods and some existing research.
Sekundarne ključne besede:	text classification;n-grams;machine learning;information theory;
URN:	URN:SI:UM:
Vrsta dela (COBISS):	Diplomsko delo
Komentar na gradivo:	Univ. v Mariboru, Fak. za elektrotehniko, računalništvo in informatiko, Računalništvo in informatika
Strani:	XV, 58 str.
ID:	9162164