magistrsko delo
Uroš Bajc (Avtor), Tomaž Curk (Mentor)

Povzetek

Metodam za zlivanje podatkov z uporabo matričnega razcepa je skupen problem hladnega zagona, ko na začetku njihovega izvajanja primanjkuje podatkov, na katerih bi se algoritmi lahko začeli učiti. V magistrskem delu se osredotočimo na metodo DFMF in jo prilagodimo tako, da problem hladnega zagona naslovimo s prenosom znanja od drugod. Implementiramo več prilagoditev metode in njihovo delovanje najprej preizkusimo na umetno ustvarjenih podatkih, kjer pri testiranju s prečnim preverjanjem večina prilagoditev dosega višje vrednosti AUC kot osnovna različica. Prilagojene metode apliciramo še na realnem problemu določanja bakterijskih gostiteljev virusov, kjer imamo na voljo množico laboratorijsko že potrjenih interakcij, na podlagi katerih želimo predlagati potencialne nove. Prenos znanja opravimo z uporabo konvolucijske nevronske mreže za napovedovanje taksonomske razvrstitve organizmov, ki jo prilagodimo tako, da lahko vektorje iz zadnjega nivoja uporabimo za inicializacijo faktorskih matrik v metodi DFMF. Pri testiranju s prečnim preverjanjem se izkaže, da dve prilagojeni različici dosegata približno enake natančnosti kot osnovna metoda DFMF, medtem ko so ostale slabše. Na koncu predstavimo še nekaj potencialnih novih interakcij med bakteriofagi in bakterijami, ki jih napovemo z osnovno metodo in eno izmed prilagojenih različic, ki daje najboljše rezultate.

Ključne besede

napovedni modeli;zlivanje modelov;matrična tri-faktorizacija;preneseno učenje;nevronske mreže;bioinformatika;bakteriofagi;bakterije;računalništvo;računalništvo in informatika;magisteriji;

Podatki

Jezik: Slovenski jezik
Leto izida:
Tipologija: 2.09 - Magistrsko delo
Organizacija: UL FRI - Fakulteta za računalništvo in informatiko
Založnik: [U. Bajc]
UDK: 004.8:578.81(043.2)
COBISS: 39995651 Povezava se bo odprla v novem oknu
Št. ogledov: 787
Št. prenosov: 135
Ocena: 0 (0 glasov)
Metapodatki: JSON JSON-RDF JSON-LD TURTLE N-TRIPLES XML RDFA MICRODATA DC-XML DC-RDF RDF

Ostali podatki

Sekundarni jezik: Angleški jezik
Sekundarni naslov: Inferring viral bacterial hosts by fusing predictive models
Sekundarni povzetek: Data fusion by matrix factorization methods have a cold start problem in common, which is characterized by a lack of initial data that could suffice for the initiation of the algorithms' learning process. In this master thesis we focus on the DFMF method and adjust it in such a way that a cold start problem is addressed by transfer learning. We implement several adjustments of the method and cross validate their efficiency on artificially created data where most of the adjustments reach higher AUC numbers than its basic version. Then we apply the adjusted methods on the real problem of defining viral bacterial hosts, with numerous in laboratory confirmed interactions, upon which we wish to suggest potentially new ones. Transfer learning is achieved with the use of convolutional neural network used for predicting taxonomic classification of organisms which we adjust in such a way that vectors from the last level can be used for the initialization of the factor matrix in the DFMF method. Cross validation suggests that two of the adjusted versions reach approximately the same precision results as the basic DFMF method, whereas the others prove to be worse. In the end we present some potentially new interactions among bacteriophage and bacteria which we predict with the basic method and one of the adjusted versions that gives the best results.
Sekundarne ključne besede: predictive models;model fusion;matrix tri-factorization;transfer learning;neural networks;bioinformatics;bacteriophages;bacteria;computer science;computer and information science;master's degree;
Vrsta dela (COBISS): Magistrsko delo/naloga
Študijski program: 1000471
Konec prepovedi (OpenAIRE): 1970-01-01
Komentar na gradivo: Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani: 101 str.
ID: 12168676