Learning by fusing heterogeneous data

ǂa ǂdissertation

Marinka Žitnik (Author), Blaž Zupan (Mentor)

Abstract

It has become increasingly common in science and technology to gather data about systems at different levels of granularity or from different perspectives. This often gives rise to data that are represented in totally different input spaces. A basic premise behind the study of learning from heterogeneous data is that in many such cases, there exists some correspondence among certain input dimensions of different input spaces. In our work we found that a key bottleneck that prevents us from better understanding and truly fusing heterogeneous data at large scales is identifying the kind of knowledge that can be transferred between related data views, entities and tasks. We develop interesting and accurate data fusion methods for predictive modeling, which reduce or entirely eliminate some of the basic feature engineering steps that were needed in the past when inferring prediction models from disparate data. In addition, our work has a wide range of applications of which we focus on those from molecular and systems biology: it can help us predict gene functions, forecast pharmacological actions of small chemicals, prioritize genes for further studies, mine disease associations, detect drug toxicity and regress cancer patient survival data. Another important aspect of our research is the study of latent factor models. We aim to design latent models with factorized parameters that simultaneously tackle multiple types of data heterogeneity, where data diversity spans across heterogeneous input spaces, multiple types of features, and a variety of related prediction tasks. Our algorithms are capable of retaining the relational structure of a data system during model inference, which turns out to be vital for good performance of data fusion in certain applications. Our recent work included the study of network inference from many potentially nonidentical data distributions and its application to cancer genomic data. We also model the epistasis, an important concept from genetics, and propose algorithms to efficiently find the ordering of genes in cellular pathways. A central topic of our Thesis is also the analysis of large data compendia as predictions about certain phenomena, such as associations between diseases and involvement of genes in a certain phenotype, are only possible when dealing with lots of data. Among others, we analyze 30 heterogeneous data sets to assess drug toxicity and over 40 human gene association data collections, the largest number of data sets considered by a collective latent factor model up to date. We also make interesting observations about deciding which data should be considered for fusion and develop a generic approach that can estimate the sensitivities between different data sets.

Keywords

napoved genskih funkcij;genska prioritizacija;gradnja mrež;sočasna matrična faktorizacija;matrično dopolnjevanje;faktorski modeli;zlivanje podatkov;bioinformatika;statistično relacijsko učenje;

Data

Language:	English
Year of publishing:	2015
Typology:	2.08 - Doctoral Dissertation
Organization:	UL FRI - Faculty of Computer and Information Science
Publisher:	[M. Žitnik]
UDC:	004.85(043.3)
COBISS:	282050816
Views:	2080
Downloads:	363
Average score:	0 (0 votes)
Metadata:

Other data

Secondary language:	Slovenian
Secondary title:	Učenje z zlivanjem heterogenih podatkov
Secondary abstract:	Podatkovno-intenzivni postopki v tehnologiji in znanosti nam v zadnjih letih omogočajo zajem velike količine heterogenih podatkov, ki opisujejo sisteme na različnih nivojih granularnosti in z različnih zornih kotov. Zbrani podatki so pogosto predstavljeni v povsem različnih podatkovnih domenah, kar predstavlja izziv za algoritme, ki gradijo napovedne modele z zlivanjem podatkov. Naše raziskave temeljijo na premisi, da je heterogene podatke mogoče »organizirati,« tako da vzpostavimo ustrezne preslikave med posameznimi dimenzijami vhodnih podatkovnih domen. Ozko grlo, ki nas loči od boljšega razumevanja podatkovne domene in s tem tudi od bolj učinkovite gradnje napovednih modelov z zlitjem velikih heterogenih podatkov, je prepoznava vrste informacije, ki jo je možno prenesti med povezanimi podatkovnimi nabori, objekti različnih tipov in napovednimi nalogami. V disertaciji predlagamo več zanimivih in zmogljivih napovednih modelov za učenje iz heterogenih podatkov. Ti pristopi so splošni, dosegajo visoko napovedno točnost in so enostavni za uporabo: v veliki meri se izognejo dolgotrajnim in zahtevnim predobdelavam podatkov, na katere se zanašajo trenutni modeli, ki heterogene podatke najpogosteje poskušajo preslikati v enovit podatkovni prostor. Razviti algoritmi so se izkazali za obetavne na večih področjih človekovega delovanja, a smo se v tem delu osredotočili na reševanje aktualnih problemov v molekularni in sistemski biologiji. Ti med drugim vključujejo napovedovanje genskih funkcij in farmakoloških akcij, rangiranje obetavnih genov za nadaljnje biološke raziskave, odkrivanje vzorcev povezav med boleznimi, odkrivanje toksičnosti zdravil in analizo umrljivosti. Pomemben vidik naših raziskav predstavlja študij latentnih faktorskih modelov. Razvijemo več latentnih modelov s faktoriziranimi parametri, ki lahko sočasno naslavljajo več vrst podatkovne heterogenosti; to je, raznolikosti, ki zaobsega heterogene podatkovne domene, več tipov entitet in različne napovedne naloge. Prednost naših algoritmov pred uveljavljenimi pristopi je sposobnost ohranitve strukture odvisnosti med podatki tekom gradnje napovednih modelov, kar smo empirično preverili v večih študijah. Naše nedavno delo na tem področju obsega pristope za gradnjo mrež z analizo podatkov iz večih morebitno različnih podatkovnih porazdelitev, ki smo jih uporabili za avtomatično gradnjo genskih regulatornih mrež pri bolezni raka. Modelirali smo tudi epistazo, ki predstavlja pomemben koncept v genetiki. V ta namen smo predlagali učinkovite algoritme za določitev vrstnega reda delovanja genov v genskih poteh, ki porabijo nekajkrat manj računskih virov od znanih tehnik. Ena izmed osrednjih tem doktorske disertacije je analiza velikih podatkovnih zbirk. V empiričnih študijah smo namreč opazili, da je za zanesljive napovedi v bioinformatiki, zaželjene na primer pri odkrivanju odvisnosti med boleznimi in ocenjevanju vpletenosti genov v razne fenotipe, pogosto koristno sklepati na osnovi meritev, ki izhajajo iz različnih eksperimentalnih ali predhodnih računskih postopkov. Med drugim v delu analiziramo 30 heterogenih podatkovnih zbirk, ki nam služijo za ocenjevanje toksičnosti zdravil, in več kot 40 zbirk o odvisnostih med geni v človeku. Slednje predstavlja analizo najobsežnejše zbirke podatkov v dosedanjih študijah latentnih faktorskih modelov. Tolikšna razsežnost podatkov poraja nova vprašanja o izbiri ustreznih podatkovnih virov za zlivanje, za kar predlagamo splošni pristop ocenjevanja občutljivosti med viri.
Secondary keywords:	Strojno učenje;Disertacije;
File type:	application/pdf
Type (COBISS):	Doctoral dissertation
Thesis comment:	Univ. v Ljubljani, Fak. za računalništvo in informatiko
Pages:	XIII, 337 str.
ID:	9059060