Uporaba predznanja o povezanosti značilk pri gradnji napovednih modelov

doktorska disertacija

Marko Toplak (Avtor), Blaž Zupan (Mentor)

Povzetek

Z ustreznim predznanjem lahko zgradimo točnejše napovedne modele. Eno od področij, kjer je gradnja napovednih modelov razmeroma težka zaradi malo učnih primerov v tipičnem naboru podatkov, a kjer imamo na voljo veliko predznanja, je področje molekularne biologije. Osnovne entitete na področju, geni, proteini ali presnovni produkti, so opisani in razvrščeni v kategorije v raznih prosto dostopnih bazah podatkov. Ta dodatna znanja lahko s pridom izkoristimo pri gradnji napovednih modelov. V disertaciji smo osredotočeni na metode, ki transformirajo prostor značilk v prostor skupin značilk, pri čemer skupine pridobimo iz obstoječih baz podatkov in predstavljajo predznanje. Značilke na podatkovnih naborih s področja molekularne biologije, ki smo jih uporabljali v disertaciji, predstavljajo gene. Metode, ki obravnavajo skupine genov, temeljijo na predpostavki, da so izrazni profili genov, ki pripadajo isti skupini, podobni. V disertaciji to predpostavko potrdimo in pokažemo, da so pari izraznih profilov genov iz skupin v bazah KEGG in BioGRID bolj podobni kot pari izraznih profilov naključno izbranih genov, a tudi pokažemo, da so te razlike majhne. Razlike ostajajo enake ne glede na verzijo podatkovnih baz skupin. V delu predlagamo metodo transformacije podatkov v prostor skupin značilk s sočasno matrično faktorizacijo, ki matriki podatkov in skupin značilk hkrati razcepi na produkt faktorjev z manjšimi rangi od rangov izvirnih matrik. Na resničnih podatkih po transformaciji s sočasno faktorizacijo lahko zgradimo modele, ki dosegajo primerljivo točnost kot modeli zgrajeni na netransformiranih podatkih. Predlagan pristop pri pretvorbi v prostor skupin uporabi tudi značilke, ki so podobne značilkam v skupini, a skupini ne pripadajo, kar ga loči od ostalih transformacijskih metod. Pri transformaciji v prostor skupin značilk moramo nastaviti parametre transformacij, kot so uteži značilk iz skupine. Transformacije, ki pri izračunu parametrov uporabljajo tudi ciljno spremenljivko, ustvarijo vrednosti skupin značilk, ki so vsaj deloma prilagojene ciljni spremenljivki. Učne metode bodo zato značilkam, ki so preveč prilagojene razredu, pripisale prevelik pomen, kar lahko poslabša točnost na novih podatkih. Predlagamo rešitev s skladanjem. Predlagana rešitev deluje z obstoječimi metodami transformacije v prostor skupin značilk in na nekaterih podatkovnih naborih bistveno izboljša točnost končnih napovednih modelov. V disertaciji preučimo tehnike transformacije podatkov v prostor vnaprej definiranih skupin značilk. V največji študiji doslej pokažemo, da z gradnjo napovednih modelov na podatkih s področja molekularne biologije, ki smo jih transformirali z obstoječimi ali predlaganimi metodami, v povprečju ne izboljšamo točnosti napovednih modelov na netransformiranih podatkih. Točnosti napovednih modelov, ki jih zgradimo na transformiranih podatkih, so še vedno podobne točnostim na netransformiranih podatkih. Ker je modele na podatkih transformiranih v skupine značilk laže interpretirati, je transformacije v prostor skupin smiselno uporabiti.

Ključne besede

strojno učenje;predznanje;povezane značilke;sočasna matrična faktorizacija;skladanje;bioinformatika;računalništvo in informatika;doktorske disertacije;

Podatki

Jezik:	Slovenski jezik
Leto izida:	2016
Tipologija:	2.08 - Doktorska disertacija
Organizacija:	UL FRI - Fakulteta za računalništvo in informatiko
Založnik:	[M. Toplak]
UDK:	004.85(043.3)
COBISS:	1537065667
Št. ogledov:	1315
Št. prenosov:	435
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Angleški jezik
Sekundarni naslov:	Induction of prediction models using domain knowledge about related features
Sekundarni povzetek:	Domain knowledge can help us build more accurate prediction models. Molecular biology is one of the fields where induction of prediction models is relatively hard due to few learning instances in a typical data set, but there exists vast domain knowledge. Basic entities of the field---genes, proteins, and metabolic products---are described and categorized in various freely accessible databases. This thesis focuses on methods that transform data from the space of features into the space of feature groups, which can be assembled from existing data bases and represent prior knowledge. Features in data sets from the field of molecular biology that we used in the thesis represent genes. Methods working with gene groups assume that gene expression profiles belonging to the same group are similar. We show that gene expressions of gene pairs from groups in databases KEGG and BioGRID are more similar than gene expression of random gene pairs, but the differences are small. The differences do not change with the database version. We propose a technique for transformation of data into a space of feature groups with collective matrix factorization, which simultaneously factorizes matrices representing data and feature groups into a product of latent factors with ranks smaller than ranks of original matrices. The models induced from the transformed data can be as accurate as models on the non-transformed data. In contrast to existing approaches, the proposed approach can also use features that are not in predefined groups of features but are similar to features in a group. Transformation techniques that transform data into a space of feature groups require estimation of transformation parameters such as, for example, feature weights. Techniques that use values of the target variable for parameter estimation, produce values for the feature groups that are at least partially fitted to the target variable. The induced models could therefore overestimate the importance of class-overfitted features, which can decrease their accuracy on novel data. We propose a solution that uses stacking. The proposed solution can work with any transformation technique and, for some data sets, boosts accuracy substantially. In the thesis we throughly study transformation of data into predefined feature groups. We show, in the largest study so far, that, on average, models induced from data sets transformed with feature groups do not obtain better prediction accuracies than models induced on non-transformed data sets. As the accuracies on transformed and non-transformed data sets are similar, the transformed data may still be preferred as models on feature groups are easier to interpret.
Sekundarne ključne besede:	machine learning;domain knowledge;related features;collective matrix factorization;stacking;bioinformatics;computer and information science;doctoral dissertations;Strojno učenje;Disertacije;Predznanje;Napovedni modeli;
Vrsta datoteke:	application/pdf
Vrsta dela (COBISS):	Doktorsko delo/naloga
Študijski program:	1000478
Konec prepovedi (OpenAIRE):	1970-01-01
Komentar na gradivo:	Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani:	X, 95 str.
ID:	9161437