magistrsko delo
Povzetek
Hierarhično gručenje je zelo priljubljena in uporabna metoda gručenja. Omogoča nam gradnjo informativne vizualizacije hierarhij v podatkih imenovano dendrogram. Težava se pojavi pri obdelavi večjih količin podatkov, saj ima metoda visoko časovno in prostorsko zahtevnost. V magistrskem delu predstavimo pristop za zmanjšanje kompleksnosti metode hierarhičnega gručenja. Ta temelji na preobdelavi podatkov s hitrejšimi tehnikami gručenja. V ta namen preizkusimo metode: DBSCAN, BIRCH, MeanSHift, metoda voditeljev in pa gručenje v omrežjih. Vsako izmed metod preizkusimo na različnih sintetičnih in realnih podatkovnih množicah. Prav tako podamo idejno vizualizacijo za prikaz rezultatov našega pristopa. Iz rezultatov je razvidno, da z našim pristopom bistveno časovno izboljšamo metodo hierarhičnega gručenja, vendar pri tem izgubimo pri natančnosti. Naš pristop namreč ne vrača popolnoma istih rezultatov, kot metoda hierarhičnega gručenja.
Ključne besede
odkrivanje znanj iz podatkov;razvrščanje v skupine;hierarhično gručenje;vizualizacija podatkov;računalništvo;računalništvo in informatika;magisteriji;
Podatki
Jezik: |
Slovenski jezik |
Leto izida: |
2020 |
Tipologija: |
2.09 - Magistrsko delo |
Organizacija: |
UL FRI - Fakulteta za računalništvo in informatiko |
Založnik: |
[N. Debevec] |
UDK: |
004.8(043.2) |
COBISS: |
51746051
|
Št. ogledov: |
1076 |
Št. prenosov: |
216 |
Ocena: |
0 (0 glasov) |
Metapodatki: |
|
Ostali podatki
Sekundarni jezik: |
Angleški jezik |
Sekundarni naslov: |
Hierarchical Clustering for Large Data Sets |
Sekundarni povzetek: |
Hierarchical clustering is a very popular and useful clustering method. It allows us to build an informative visualization of hierarchies in data called a dendrogram. The problem arises when processing large amounts of data, as the method has a high time and space complexity. In the master's thesis, we present an approach to reducing the complexity of the method of hierarchical clustering. This is based on data processing with faster clustering techniques. For this purpose, we test the methods: DBSCAN, BIRCH, MeanShift, K-means and Louvain clustering. Each of the methods is tested on different synthetic and real data sets. We also provide a conceptual visualization to show the results of our approach. It is evident from the results that our approach significantly improves the time complexity of the method of hierarchical clustering, but we do lose accuracy. Namely, our approach does not return exactly the same results as the method of hierarchical clustering. |
Sekundarne ključne besede: |
data mining;clustering;hierarchical clustering;data visualization;computer science;computer and information science;master's degree; |
Vrsta dela (COBISS): |
Magistrsko delo/naloga |
Študijski program: |
1000471 |
Konec prepovedi (OpenAIRE): |
1970-01-01 |
Komentar na gradivo: |
Univ. v Ljubljani, Fak. za računalništvo in informatiko |
Strani: |
60 str. |
ID: |
12352463 |