diplomsko delo
Povzetek
Rezanje dreves hierarhičnega gručenja je pomemben proces, vendar je zelo
težko oceniti, kje smemo rezati, da izbrana gruča res predstavlja povezavo
med svojimi predstavniki. Algoritem, ki nam pomaga to doseči, je pvclust.
Za generiranje vzorcev uporablja metodo stremena, ti vzorci pa se nato uporabijo za izračun korelacijskega koeficienta med pari posameznih atributov.
Koeficienti se uporabijo kot mera, ki pomaga določiti razdalje med atributi,
ki so ključne za delovanje hierarhičnega gručenja. Med iteracijami algoritem
primerja gruče in skuša ugotoviti, katere gruče najverjetneje predstavljajo
dejanske povezave med atributi. Vendar pa je ena od težav algoritma ta, da
za svoje delovanje zahteva veliko časa. Zato v tej nalogi predstavimo alternativo, ki bi dosegla podobne rezultate, vendar bi zahtevala veliko manj časa.
Kot kažejo rezultati, nam je z metodo silhuet uspelo izpolniti željen cilj.
Ključne besede
hierarhično gručenje;dendrogrami;pvclust;metoda stremena;interdisciplinarni študij;univerzitetni študij;diplomske naloge;
Podatki
Jezik: |
Slovenski jezik |
Leto izida: |
2023 |
Tipologija: |
2.11 - Diplomsko delo |
Organizacija: |
UL FRI - Fakulteta za računalništvo in informatiko |
Založnik: |
[R. Filipovič] |
UDK: |
004(043.2) |
COBISS: |
169193731
|
Št. ogledov: |
116 |
Št. prenosov: |
6 |
Ocena: |
0 (0 glasov) |
Metapodatki: |
|
Ostali podatki
Sekundarni jezik: |
Angleški jezik |
Sekundarni naslov: |
Simplification of hierarchical clustering trees |
Sekundarni povzetek: |
Tree cutting is an important aspect of hierarchical clustering, however, de-
termining where to cut often poses a problem, as we would like the clusters
to actually represent connections between the objects. An algorithm that
helps us achieve this is pvclust. It generates samples through the bootstrap
method, which are then used to calculate the correlation between pairs of in-
dividual attributes. These values serve as a measure to determine distances
that are crucial in hierarchical clustering. Throughout all iterations, the al-
gorithm compares which clusters are likely to represent actual connections
between features. The only issue is that the algorithm requires a signifi-
cant amount of time to operate. Therefore, in this study, we are exploring
an alternative that could yield similar results while significantly reducing the
required time. Fortunately, it seems that we were able to reproduce sufficient
results using the silhouette method. |
Sekundarne ključne besede: |
hierarchical clustering;dendrograms;pvclust;bootstrap method;computer science;computer and information science;computer science and mathematics;interdisciplinary studies;diploma;Računalništvo;Univerzitetna in visokošolska dela; |
Vrsta dela (COBISS): |
Diplomsko delo/naloga |
Študijski program: |
1000407 |
Konec prepovedi (OpenAIRE): |
1970-01-01 |
Komentar na gradivo: |
Univ. v Ljubljani, Fak. za računalništvo in informatiko |
Strani: |
48 str. |
ID: |
19945584 |