Scalable matrix factorization for data fusion

Andrej Čopar (Avtor), Blaž Zupan (Mentor)

Povzetek

Data collection technologies are advancing quickly and are producing larger amounts of data than ever before. Biomedical data analysis, text analysis and recommender systems rely on machine learning to perform tasks such as modeling gene-disease associations, clustering documents, and user recommendations. The analysis of such data is particularly challenging due to the large dimensionality and multitude of different object types. Data fusion methods can accurately deal with such heterogeneous datasets by integrating them into a single model. Existing data fusion approaches were not designed for speed on huge datasets and can be prohibitively slow for practical use. Our main goal is to develop new methods that increase the speed of data fusion using efficient optimization techniques and modern parallel systems. Contemporary data fusion methods are based on matrix factorization as its core component. Matrix factorization learns a latent data model that transforms the data into a latent feature space enabling generalization, noise removal and feature discovery. Matrix tri-factorization is a popular method that is not limited by the assumption of standard matrix factorization about data residing in one latent space. Matrix tri-factorization infers separate latent space for each dimension, making the approach ideal for data fusion. Factorization algorithms are numerically intensive, hence scaling current algorithms to work with large datasets is crucial for development of fast data fusion approaches. We developed a block\-/wise approach for latent factor learning in matrix tri\-/factorization. The approach partitions a data matrix into disjoint submatrices that are treated independently and fed into a parallel factorization system. We show that our approach scales well on multi-processor and multi-GPU architectures. Our approach on four GPU devices is more than a hundred times faster than its single-processor counterpart. Currently, non-negative matrix tri-factorization learns a representation of a dataset through an optimization procedure that typically uses multiplicative update rules. This procedure has had limited success due to its slow convergence. We develop three alternative optimization techniques for non-negative matrix tri-factorization based on alternating least squares, projected gradients, and coordinate descent. We perform an empirical study comparing multiplicative update rules with the three alternative techniques and show that coordinate descent-based techniques converges up to twenty times faster compared to multiplicative updates. Finally, we employ block-wise techniques together with coordinate descent to speed up data fusion. With block-wise parallelization we accelerate an existing data fusion approach over 30 times. We derive a new coordinate descent-based data fusion approach that converges over 15 times faster compared to existing approach. Coordinate-descent data fusion accelerated on GPU devices performs over 100 times faster compared to an existing approach on 16 processes.

Ključne besede

machine learning;bioinformatics;matrix factorization;data fusion;computer and information science;doctoral dissertations;

Podatki

Jezik:	Angleški jezik
Leto izida:	2019
Tipologija:	2.08 - Doktorska disertacija
Organizacija:	UL FRI - Fakulteta za računalništvo in informatiko
Založnik:	[A. Čopar]
UDK:	004.85:575.112(043.3)
COBISS:	1538450627
Št. ogledov:	882
Št. prenosov:	253
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Slovenski jezik
Sekundarni naslov:	Skalabilna matrična faktorizacija za zlivanje podatkov
Sekundarni povzetek:	Tehnologija zbiranja podatkov napreduje vse hitreje in proizvaja ogromne količine podatkov. Analiza biomedicinskih podatkov, analiza teksta in priporočilni sistemi uporabljajo strojno učenje za izvajanje opravil, kot so modeliranje povezav med geni in boleznimi, gručenje dokumentov ter priporočila uporabnikom. Analiza teh podatkov predstavlja poseben izziv zaradi velike obsežnosti in velikega števila različnih tipov objektov. Metode zlivanja podatkov lahko natančno obravnavajo take heterogene podatke, tako da jih združijo v en sam model. Obstoječi načini zlivanja podatkov niso primerni za hitro analizo ogromnih podatkov, njihova uporabnost je omejena s počasno hitrostjo. Naš glavni cilj je razviti nove metode, ki pospešijo hitrost zlivanja podatkov z uporabo učinkovitih optimizacijskih tehnik in modernih sistemov za vzporedno računanje. Sodobne metode za zlivanje podatkov temeljijo na matrični faktorizaciji. Matrična faktorizacija se nauči skritega podatkovnega modela, ki omogoča posplošitev modela, odstrani šum ter odkrije nove značilke. Matrična tri-faktorizacija je pogosto uporabljena oblika faktorizacije, ki ni omejena s predpostavko, da podatki ležijo v enem samem prostoru. Matrična tri-faktorizacija izlušči ločen skriti prostor za vsako dimenzijo posebej in se uporablja kot osnovni gradnik metod zlivanja podatkov. Algoritmi za faktorizacijo so računsko zahtevni, zato je njihova prilagoditev za velike podatke ključnega pomena za razvoj hitrih metod zlivanja podatkov. Razvili smo bločni postopek za učenje latentnih faktorjev v matrični faktorizaciji. Ta postopek razbije podatke v ločene dele, ki so v vzporednih sistemih neodvisno obravnavani. Pokazali smo, da je predstavljen postopek skalabilen na več-procesorskih arhitekturah in arhitekturah z več grafičnimi karticami. Na sistemu s štirimi grafičnimi karticami smo pokazali, da je naš postopek več kot stokrat hitrejši od postopka, ki uporablja en procesor. Trenutne metode nenegativne matrične tri-faktorizacije se naučijo predstavitve modela z uporabo optimizacijskih postopkov, ki temeljijo na multiplikativnih pravilih. Ta postopek omejuje počasna konvergenca. Razvili smo tri alternativne načine za matrično tri-faktorizacijo, ki temeljijo na postopku izmenjujočih najmanjših kvadratov, postopku projiciranih gradientov in postopku koordinatnega spusta. Naredili smo empirično analizo, s katero smo primerjali postopek multiplikativnih pravil z ostalimi tremi alternativnimi tehnikami. Pokazali smo, da postopek projiciranih gradientov konvergira tri-krat hitreje, postopek koordinatnega spusta pa tudi do 20-krat hitreje v primerjavi z multiplikativnimi pravili. Bločna pravila množenja ter postopek koordinatnega spusta smo uporabili za pohitritev zlivanja podatkov. Bločna paralelizacija več kot 30-krat pohitri obstoječi način zlivanja podatkov. Razvili smo novo metodo zlivanja podatkov, ki temelji na postopku koordinatnega spusta in opazili da ta način konvergira več kot 15-krat hitreje od obstoječe metode. Zlivanje podatkov na osnovi koordinatnega spusta, ki ga pospešimo z grafičnimi karticami, je vsaj 100-krat hitrejši od obstoječega postopka, pospešenega na 16 procesih.
Sekundarne ključne besede:	strojno učenje;bioinformatika;matrična faktorizacija;zlivanje podatkov;računalništvo;računalništvo in informatika;doktorske disertacije;Strojno učenje;Disertacije;Podatki;
Vrsta dela (COBISS):	Doktorsko delo/naloga
Študijski program:	1000474
Konec prepovedi (OpenAIRE):	1970-01-01
Komentar na gradivo:	Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani:	XVI, 129 str.
ID:	11294080