master's thesis
Tilen Kopač (Avtor), Tomaž Curk (Mentor), Roman Kern (Komentor)

Povzetek

The rise of modern DNA sequencing methods and tools has led to an abundance of readily available genomic data. Since identifying the locations of genes and coding regions in novel organisms is a time-intensive process, we endeavored to create a pipeline, which produces informative embeddings from raw DNA sequences. Salient features are learned using autoencoder neural networks. Models with different parameter values and combinations of layer types were trained and evaluated. The autoencoders transform a given genome into a point cloud in the latent space. We implemented and evaluated various sampling methods, which compress this point cloud into a compact representation. The quality of the embeddings was validated on a downstream task of taxonomic realm prediction of novel organisms from their raw DNA sequences. Furthermore, we propose several embedding visualizations for intuitive genome understanding and comparison.

Ključne besede

bioinformatics;autoencoder;embedding;computer science;computer and information science;master's thesis;

Podatki

Jezik: Angleški jezik
Leto izida:
Tipologija: 2.09 - Magistrsko delo
Organizacija: UL FRI - Fakulteta za računalništvo in informatiko
Založnik: [T. Kopač]
UDK: 004:575.112(043.2)
COBISS: 88505603 Povezava se bo odprla v novem oknu
Št. ogledov: 258
Št. prenosov: 40
Ocena: 0 (0 glasov)
Metapodatki: JSON JSON-RDF JSON-LD TURTLE N-TRIPLES XML RDFA MICRODATA DC-XML DC-RDF RDF

Ostali podatki

Sekundarni jezik: Slovenski jezik
Sekundarni naslov: Predstavitev in primerjava genomov z uporabo vložitev
Sekundarni povzetek: Razvoj sodobnih metod in orodij za sekvenciranje DNA je privedel do velikih količin genomskih podatkov. Označevanje lokacij genov in kodirajočih regij v genomih novih organizmov je zamudno, zato smo v svojem delu zasnovali cevovod, ki zaporedja DNA organizmov pretvori v informativne vložitve. Za učenje uporabnih informacij za opis podatkov smo uporabili obliko nevronskih mrež, imenovano samokodirnik. Naučili smo modele z različnimi vrednostmi parametrov in kombinacijami slojev ter ovrednotili njihovo zmogljivost. Samokodirniki genome preslikajo v oblake točk v latentnem prostoru. Implementirali smo različne metode za predstavitev oblaka točk v zgoščeni obliki. Z uporabo vložitev neoznačenih zaporedij DNA smo pokazali, da te zajamejo uporabne opise za napovedovanja taksonomne kategorije organizmov. Vložitve smo tudi vizualizirali z namenom intuitivnega razumevanja in primerjave genomov.
Sekundarne ključne besede: samokodirnik;vložitev;računalništvo in informatika;magisteriji;Genom;Bioinformatika;Računalništvo;Univerzitetna in visokošolska dela;
Vrsta dela (COBISS): Magistrsko delo/naloga
Študijski program: 1000471
Komentar na gradivo: Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani: VI, 58 str.
ID: 14060822
Priporočena dela:
, master's thesis
, magistrsko delo