Abstract
Matrix factorization techniques have proven to be useful and reliable for solving largescale
machine learning problems. The data sparsity and cold-start problems found in
real-world applications, such as recommender systems, can be indirectly alleviated by
considering multiple heterogeneous data sources, while at the same time the successful
utilization of data fusion resolves in a higher predictive accuracy. However, incrementally
handling models upon multiple data streams remains a crucial and only partially
solved problem.
This work presents one way of fusing multiple data streams through matrix factorization.
Our proposed method models heterogeneous and asynchronous data streams
and provides predictions in real time. As a result of incremental updating, the proposed
method successfully adapts to changes in data concepts, while application of data fusion
improves prediction accuracy and reduces effects of the cold-start problem. Using
the proposed methodology we develop a streaming recommender system and show how
prediction accuracy can be substantially increased by considering multiple data sources.
Nevertheless, evaluating data fusion, recommender and other incremental algorithms,
such as our presented method, is inherently difficult due to the scarcity of obtainable
data sources. In order to address this problem, we conjointly propose a synthetic data
generator, capable of generating multiple temporal and inter-dependent data streams of
relational data. Data streams generated in this way successfully mimic real-life datasets
in terms of statistical data properties and comparable performance of various machine
learning models.
Proposed methodologies help in development of solutions for collective modeling of
streaming data in real-time. Apart from recommender systems, the versatility of matrix
factorization further allows for its use in solving several other machine learning problems,
such as dimensionality reduction, clustering and classification.
Keywords
machine learning;matrix factorization;data streams;data fusion;incremental learning;recommender systems;synthetic data generator;computer and information science;doctoral dissertations;
Data
Language: |
English |
Year of publishing: |
2019 |
Typology: |
2.08 - Doctoral Dissertation |
Organization: |
UL FRI - Faculty of Computer and Information Science |
Publisher: |
[M. Jakomin] |
UDC: |
004.85(043.3) |
COBISS: |
1538473155
|
Views: |
924 |
Downloads: |
281 |
Average score: |
0 (0 votes) |
Metadata: |
|
Other data
Secondary language: |
Slovenian |
Secondary title: |
Inkrementalna matrična faktorizacija za hkratno učenje iz vzporednih podatkovnih tokov |
Secondary abstract: |
Matrična faktorizacija se je izkazala kot uporabna in zanesljiva metoda za implementacijo
obsežnih aplikacij strojnega učenja, kot so na primer priporočilni sistemi. Težave z
redkostjo podatkov in problem hladnega zagona se lahko posredno omilijo z uporabo
več heterogenih virov podatkov, hkrati pa uspešna uporaba zlivanja podatkov doprinaša
večjo napovedno točnost. Za vsakodnevne aplikacije, na primer take s stalnimi povratnimi
informacijami uporabnikov, ostaja inkrementalno posodabljanje modelov, naučenih
na več podatkovnih tokovih, ključen in le delno rešen problem.
V delu predlagamo metodo za zlivanje več podatkovnih tokov z uporabo matrične
faktorizacije. Predlagana metoda modelira heterogene in nesočasne podatkovne tokove
in omogoča napovedovanje v realnem času. Zaradi inkrementalnega posodabljanja se
predlagana metoda uspešno prilagaja spremembam v podatkovnih konceptih, hkrati pa
uspešno zlivanje podatkov izboljša točnost napovedi in zmanjša negativne učinke hladnega
zagona. Kot primer uporabe naše predlagane metode izdelamo priporočilni sistem in
pokažemo, da se točnost priporočanja bistveno poveča z upoštevanjem več podatkovnih
virov hkrati. Vendarle pa je evalvacija algoritmov za podatkovno zlivanje, priporočanje
in inkrementalnega učenja, ki jih uporablja tudi naša metoda, težka, predvsem zaradi
pomanjkanja dostopnih podatkovnih virov. Za reševanje tega problema v disertaciji predlagamo
sintetični generator podatkov. Ta lahko generira več časovno in medsebojno
odvisnih podatkovnih tokov z relacijskimi podatki. Podatkovni tokovi, ustvarjeni na
ta način, uspešno posnemajo realne množice podatkov v smislu statističnih lastnosti in
primerljive uspešnosti napovednih modelov strojnega učenja.
Predlagana metodologija ponuja pomoč pri razvoju algoritmov za sočasno modeliranje
podatkovnih tokov v realnem času. Poleg priporočilnih sistemov pa vsestranskost
matrične faktorizacije omogoča njeno uporabnost za reševanje številnih drugih problemov
strojnega učenja, kot so zmanjševanje dimenzionalnosti, gručenje in klasifikacija. |
Secondary keywords: |
strojno učenje;matrična faktorizacija;podatkovni tokovi;zlivanje podatkov;inkrementalno učenje;priporočilni sistemi;generator sintetičnih podatkov;računalništvo;računalništvo in informatika;doktorske disertacije; |
Type (COBISS): |
Doctoral dissertation |
Study programme: |
1000474 |
Embargo end date (OpenAIRE): |
1970-01-01 |
Thesis comment: |
Univ. v Ljubljani, Fak. za računalništvo in informatiko |
Pages: |
XV, 106 str. |
ID: |
11326862 |