Secondary abstract: |
Tehnologija zbiranja podatkov napreduje vse hitreje in proizvaja ogromne količine podatkov. Analiza biomedicinskih podatkov, analiza teksta in priporočilni sistemi uporabljajo strojno učenje za izvajanje opravil, kot so modeliranje povezav med geni in boleznimi, gručenje dokumentov ter priporočila uporabnikom. Analiza teh podatkov predstavlja poseben izziv zaradi velike obsežnosti in velikega števila različnih tipov objektov. Metode zlivanja podatkov lahko natančno obravnavajo take heterogene podatke, tako da jih združijo v en sam model. Obstoječi načini zlivanja podatkov niso primerni za hitro analizo ogromnih podatkov, njihova uporabnost je omejena s počasno hitrostjo. Naš glavni cilj je razviti nove metode, ki pospešijo hitrost zlivanja podatkov z uporabo učinkovitih optimizacijskih tehnik in modernih sistemov za vzporedno računanje.
Sodobne metode za zlivanje podatkov temeljijo na matrični faktorizaciji. Matrična faktorizacija se nauči skritega podatkovnega modela, ki omogoča posplošitev modela, odstrani šum ter odkrije nove značilke. Matrična tri-faktorizacija je pogosto uporabljena oblika faktorizacije, ki ni omejena s predpostavko, da podatki ležijo v enem samem prostoru. Matrična tri-faktorizacija izlušči ločen skriti prostor za vsako dimenzijo posebej in se uporablja kot osnovni gradnik metod zlivanja podatkov. Algoritmi za faktorizacijo so računsko zahtevni, zato je njihova prilagoditev za velike podatke ključnega pomena za razvoj hitrih metod zlivanja podatkov.
Razvili smo bločni postopek za učenje latentnih faktorjev v matrični faktorizaciji. Ta postopek razbije podatke v ločene dele, ki so v vzporednih sistemih neodvisno obravnavani. Pokazali smo, da je predstavljen postopek skalabilen na več-procesorskih arhitekturah in arhitekturah z več grafičnimi karticami. Na sistemu s štirimi grafičnimi karticami smo pokazali, da je naš postopek več kot stokrat hitrejši od postopka, ki uporablja en procesor.
Trenutne metode nenegativne matrične tri-faktorizacije se naučijo predstavitve modela z uporabo optimizacijskih postopkov, ki temeljijo na multiplikativnih pravilih. Ta postopek omejuje počasna konvergenca. Razvili smo tri alternativne načine za matrično tri-faktorizacijo, ki temeljijo na postopku izmenjujočih najmanjših kvadratov, postopku projiciranih gradientov in postopku koordinatnega spusta. Naredili smo empirično analizo, s katero smo primerjali postopek multiplikativnih pravil z ostalimi tremi alternativnimi tehnikami. Pokazali smo, da postopek projiciranih gradientov konvergira tri-krat hitreje, postopek koordinatnega spusta pa tudi do 20-krat hitreje v primerjavi z multiplikativnimi pravili.
Bločna pravila množenja ter postopek koordinatnega spusta smo uporabili za pohitritev zlivanja podatkov. Bločna paralelizacija več kot 30-krat pohitri obstoječi način zlivanja podatkov. Razvili smo novo metodo zlivanja podatkov, ki temelji na postopku koordinatnega spusta in opazili da ta način konvergira več kot 15-krat hitreje od obstoječe metode. Zlivanje podatkov na osnovi koordinatnega spusta, ki ga pospešimo z grafičnimi karticami, je vsaj 100-krat hitrejši od obstoječega postopka, pospešenega na 16 procesih. |