Incremental matrix factorization for simultaneous learning from parallel data streams

Martin Jakomin (Avtor), Zoran Bosnić (Mentor), Tomaž Curk (Komentor)

Povzetek

Matrix factorization techniques have proven to be useful and reliable for solving largescale machine learning problems. The data sparsity and cold-start problems found in real-world applications, such as recommender systems, can be indirectly alleviated by considering multiple heterogeneous data sources, while at the same time the successful utilization of data fusion resolves in a higher predictive accuracy. However, incrementally handling models upon multiple data streams remains a crucial and only partially solved problem. This work presents one way of fusing multiple data streams through matrix factorization. Our proposed method models heterogeneous and asynchronous data streams and provides predictions in real time. As a result of incremental updating, the proposed method successfully adapts to changes in data concepts, while application of data fusion improves prediction accuracy and reduces effects of the cold-start problem. Using the proposed methodology we develop a streaming recommender system and show how prediction accuracy can be substantially increased by considering multiple data sources. Nevertheless, evaluating data fusion, recommender and other incremental algorithms, such as our presented method, is inherently difficult due to the scarcity of obtainable data sources. In order to address this problem, we conjointly propose a synthetic data generator, capable of generating multiple temporal and inter-dependent data streams of relational data. Data streams generated in this way successfully mimic real-life datasets in terms of statistical data properties and comparable performance of various machine learning models. Proposed methodologies help in development of solutions for collective modeling of streaming data in real-time. Apart from recommender systems, the versatility of matrix factorization further allows for its use in solving several other machine learning problems, such as dimensionality reduction, clustering and classification.

Ključne besede

machine learning;matrix factorization;data streams;data fusion;incremental learning;recommender systems;synthetic data generator;computer and information science;doctoral dissertations;

Podatki

Jezik:	Angleški jezik
Leto izida:	2019
Tipologija:	2.08 - Doktorska disertacija
Organizacija:	UL FRI - Fakulteta za računalništvo in informatiko
Založnik:	[M. Jakomin]
UDK:	004.85(043.3)
COBISS:	1538473155
Št. ogledov:	924
Št. prenosov:	281
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Slovenski jezik
Sekundarni naslov:	Inkrementalna matrična faktorizacija za hkratno učenje iz vzporednih podatkovnih tokov
Sekundarni povzetek:	Matrična faktorizacija se je izkazala kot uporabna in zanesljiva metoda za implementacijo obsežnih aplikacij strojnega učenja, kot so na primer priporočilni sistemi. Težave z redkostjo podatkov in problem hladnega zagona se lahko posredno omilijo z uporabo več heterogenih virov podatkov, hkrati pa uspešna uporaba zlivanja podatkov doprinaša večjo napovedno točnost. Za vsakodnevne aplikacije, na primer take s stalnimi povratnimi informacijami uporabnikov, ostaja inkrementalno posodabljanje modelov, naučenih na več podatkovnih tokovih, ključen in le delno rešen problem. V delu predlagamo metodo za zlivanje več podatkovnih tokov z uporabo matrične faktorizacije. Predlagana metoda modelira heterogene in nesočasne podatkovne tokove in omogoča napovedovanje v realnem času. Zaradi inkrementalnega posodabljanja se predlagana metoda uspešno prilagaja spremembam v podatkovnih konceptih, hkrati pa uspešno zlivanje podatkov izboljša točnost napovedi in zmanjša negativne učinke hladnega zagona. Kot primer uporabe naše predlagane metode izdelamo priporočilni sistem in pokažemo, da se točnost priporočanja bistveno poveča z upoštevanjem več podatkovnih virov hkrati. Vendarle pa je evalvacija algoritmov za podatkovno zlivanje, priporočanje in inkrementalnega učenja, ki jih uporablja tudi naša metoda, težka, predvsem zaradi pomanjkanja dostopnih podatkovnih virov. Za reševanje tega problema v disertaciji predlagamo sintetični generator podatkov. Ta lahko generira več časovno in medsebojno odvisnih podatkovnih tokov z relacijskimi podatki. Podatkovni tokovi, ustvarjeni na ta način, uspešno posnemajo realne množice podatkov v smislu statističnih lastnosti in primerljive uspešnosti napovednih modelov strojnega učenja. Predlagana metodologija ponuja pomoč pri razvoju algoritmov za sočasno modeliranje podatkovnih tokov v realnem času. Poleg priporočilnih sistemov pa vsestranskost matrične faktorizacije omogoča njeno uporabnost za reševanje številnih drugih problemov strojnega učenja, kot so zmanjševanje dimenzionalnosti, gručenje in klasifikacija.
Sekundarne ključne besede:	strojno učenje;matrična faktorizacija;podatkovni tokovi;zlivanje podatkov;inkrementalno učenje;priporočilni sistemi;generator sintetičnih podatkov;računalništvo;računalništvo in informatika;doktorske disertacije;
Vrsta dela (COBISS):	Doktorsko delo/naloga
Študijski program:	1000474
Konec prepovedi (OpenAIRE):	1970-01-01
Komentar na gradivo:	Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani:	XV, 106 str.
ID:	11326862