Hierarhično gručenje na velikih podatkih

magistrsko delo

Nejc Debevec (Avtor), Blaž Zupan (Mentor)

Povzetek

Hierarhično gručenje je zelo priljubljena in uporabna metoda gručenja. Omogoča nam gradnjo informativne vizualizacije hierarhij v podatkih imenovano dendrogram. Težava se pojavi pri obdelavi večjih količin podatkov, saj ima metoda visoko časovno in prostorsko zahtevnost. V magistrskem delu predstavimo pristop za zmanjšanje kompleksnosti metode hierarhičnega gručenja. Ta temelji na preobdelavi podatkov s hitrejšimi tehnikami gručenja. V ta namen preizkusimo metode: DBSCAN, BIRCH, MeanSHift, metoda voditeljev in pa gručenje v omrežjih. Vsako izmed metod preizkusimo na različnih sintetičnih in realnih podatkovnih množicah. Prav tako podamo idejno vizualizacijo za prikaz rezultatov našega pristopa. Iz rezultatov je razvidno, da z našim pristopom bistveno časovno izboljšamo metodo hierarhičnega gručenja, vendar pri tem izgubimo pri natančnosti. Naš pristop namreč ne vrača popolnoma istih rezultatov, kot metoda hierarhičnega gručenja.

Ključne besede

odkrivanje znanj iz podatkov;razvrščanje v skupine;hierarhično gručenje;vizualizacija podatkov;računalništvo;računalništvo in informatika;magisteriji;

Podatki

Jezik:	Slovenski jezik
Leto izida:	2020
Tipologija:	2.09 - Magistrsko delo
Organizacija:	UL FRI - Fakulteta za računalništvo in informatiko
Založnik:	[N. Debevec]
UDK:	004.8(043.2)
COBISS:	51746051
Št. ogledov:	1076
Št. prenosov:	216
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Angleški jezik
Sekundarni naslov:	Hierarchical Clustering for Large Data Sets
Sekundarni povzetek:	Hierarchical clustering is a very popular and useful clustering method. It allows us to build an informative visualization of hierarchies in data called a dendrogram. The problem arises when processing large amounts of data, as the method has a high time and space complexity. In the master's thesis, we present an approach to reducing the complexity of the method of hierarchical clustering. This is based on data processing with faster clustering techniques. For this purpose, we test the methods: DBSCAN, BIRCH, MeanShift, K-means and Louvain clustering. Each of the methods is tested on different synthetic and real data sets. We also provide a conceptual visualization to show the results of our approach. It is evident from the results that our approach significantly improves the time complexity of the method of hierarchical clustering, but we do lose accuracy. Namely, our approach does not return exactly the same results as the method of hierarchical clustering.
Sekundarne ključne besede:	data mining;clustering;hierarchical clustering;data visualization;computer science;computer and information science;master's degree;
Vrsta dela (COBISS):	Magistrsko delo/naloga
Študijski program:	1000471
Konec prepovedi (OpenAIRE):	1970-01-01
Komentar na gradivo:	Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani:	60 str.
ID:	12352463