master's thesis
Povzetek
Regression and clustering are important components of machine learning.
The first servers as a tool for discovering relations between dependent and independent variables in a dataset.
With the second, data can be ordered in clusters or group, depending on the similarities between individual data entries.
In our thesis, we investigate a novel algorithm that conducts both tasks at the same time.
The algorithm for non-parametric regression, which is based on Gaussian mixed models, discovers cluster in longitudinal datasets and, with the help of non-parametric regression, creates smooth mean development curves for those clusters.
In the proposed algorithm, the non-parametric regression is based on natural cubic spline regression.
We present the theoretical basis for the algorithm and its components.
We also incorporate approaches to reduce the proposed algorithms computational complexity.
An implementation of the proposed algorithm and corresponding speed-ups are constructed in the programming language Julia.
The algorithms performance is demonstrated quantitatively on a synthetic and qualitatively on a real dataset.
A Covid-19 dataset available from the World Health Organization was utilized in the later evaluation.
The goal of this evaluation is to group together countries with similar epidemiological development trends.
Ključne besede
mixture models;regression;natural cubic splines;clustering;computer science;computer and information science;master's degree;
Podatki
Jezik: |
Angleški jezik |
Leto izida: |
2021 |
Tipologija: |
2.09 - Magistrsko delo |
Organizacija: |
UL FRI - Fakulteta za računalništvo in informatiko |
Založnik: |
[P. Mlakar] |
UDK: |
004.8:51(043.2) |
COBISS: |
77153027
|
Št. ogledov: |
345 |
Št. prenosov: |
51 |
Ocena: |
0 (0 glasov) |
Metapodatki: |
|
Ostali podatki
Sekundarni jezik: |
Slovenski jezik |
Sekundarni naslov: |
Uporaba regresije z mešanimi modeli v strojnem učenju |
Sekundarni povzetek: |
Regresija ter gručenje sta pomembni komponenti strojnega učenja.
Prva služi kot pripomoček pri odkrivanju relacij med odvisnimi ter neodvisnimi spremenljivkami v podatkih.
S pomočjo druge metode podatke uredimo v skupine glede na njihove medsebojne podobnosti.
V našem delu predstavimo nov algoritem, ki hkrati opravlja obe nalogi.
Algoritem za neparametrično regresijo, ki temelji na Gaussovih mešanih modelih, v časovno odvisnih podatkih poišče gruče ter s pomočjo neparametrične regresije ustvari povprečne razvojne krivulje posameznih gruč.
V predstavljenem algoritmu neparametrična regresija temelji na regresiji z naravnimi kubičnimi zlepki.
Na začetku predstavimo teoretično ozadje predlaganega algoritma ter njegovih komponent.
Prav tako algoritmu zmanjšamo časovno kompleksnost s pomočjo različnih pohitritev.
Algoritem ter uporabljenje pohitritve smo implementirali v programskem jeziku Julia.
Njegovo delovanje evalviramo kvantitativno na umetni ter kvalitativno na resnični podatkovni zbirki Covid-19.
Cilj slednje evalvacije je gručenje podobnih držav glede na potek epidemije Covid-19 v posameznh državah. |
Sekundarne ključne besede: |
mešani modeli;regresija;naravni kubični zlepki;gručenje;računalništvo in informatika;magisteriji;Strojno učenje;Regresijska analiza;Računalništvo;Univerzitetna in visokošolska dela; |
Vrsta dela (COBISS): |
Magistrsko delo/naloga |
Študijski program: |
1000471 |
Komentar na gradivo: |
Univ. v Ljubljani, Fak. za računalništvo in informatiko |
Strani: |
XII, 83 str. |
ID: |
13381032 |