Transfer learning for prediction of transcription start sites across different plant species

master's thesis

David Miškić (Avtor), Tomaž Curk (Mentor), Jan Zrimec (Komentor)

Povzetek

Transcription start site (TSS) prediction is a classification problem at the intersection of machine learning and laboratory gene expression measurement methods. The site is significant as it represents the location where the first nucleotide is transcribed by RNA polymerase and can help characterize the genome of an organism. We have developed two variants of prediction models in the plant model organism \textit{Arabidopsis thaliana} based on an existing expression model Enformer, using upscaling and a custom loss function that proved crucial for training success. The GFF model type uses genome annotation information to supplement the context, and this has proven to facilitate the transfer between plant organisms, demonstrated by transfer learning on corn. The MultiTSS model type uses DNA sequence alone with no substantial performance degradation compared to the GFF model, demonstrating that it is able to capture and learn important motifs that characterize a TSS. We show that the developed methods are comparably better than existing approaches and can be applied without retraining as well. We also describe the procedure and pitfalls of the problem area with potential solutions.

Ključne besede

transcription start site;polymerase;bioinformatics;transformer;computer science;master's thesis;

Podatki

Jezik:	Angleški jezik
Leto izida:	2023
Tipologija:	2.09 - Magistrsko delo
Organizacija:	UL FRI - Fakulteta za računalništvo in informatiko
Založnik:	[D. Miškić]
UDK:	004:575.112(043.2)
COBISS:	169486083
Št. ogledov:	61
Št. prenosov:	13
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Slovenski jezik
Sekundarni naslov:	Učenje s prenosom znanja za napovedovanje začetnega mesta transkripcije med različnimi vrstami rastlin
Sekundarni povzetek:	Napovedovanje začetnega mesta transkripcije (TSS) je klasifikacijski problem na presečišču strojnega učenja in laboratorijskih metod merjenja ekspresije. To mesto predstavlja položaj, kjer polimeraza RNA začne prepisovati prvi nukleotid in lahko pomaga pri karakterizaciji genoma organizma. Razvili smo dve različici modela na podatkih modelnega organizma pri rastlinah, \textit{A. thaliana}, ki temeljita na jedru obstoječega modela napovedovanja izražanja Enformer. Temu smo dodali sloje za večanje ločljivosti in funkcije izgube po meri, ki se je izkazala ključna za uspeh učenja. Tip modela GFF uporablja informacijo iz anotacije genoma za dopolnjevanje konteksta, kar je dokazano olajšalo prenos med rastlinami, to smo pokazali tudi na primeru koruze. Tip modela MultiTSS uporablja samo zaporedje DNA in brez bistvenega poslabšanja zmogljivosti v primerjavi z GFF dokazuje, da je ta arhitektura sposobna zajeti in se naučiti pomembnih motivov, ki so značilni za TSS. Demonstriramo tudi, da so razvite metode primerljivo boljše od obstoječih pristopov in jih je mogoče uporabljati tudi brez ponovnega učenja. Opisali smo tudi postopek in pasti tega problema ter predlagali možne rešitve.
Sekundarne ključne besede:	začetno mesto transkripcije;polimeraza;transformer;prenos učenja;magisteriji;Bioinformatika;Računalništvo;Univerzitetna in visokošolska dela;
Vrsta dela (COBISS):	Magistrsko delo/naloga
Študijski program:	1000471
Konec prepovedi (OpenAIRE):	1970-01-01
Komentar na gradivo:	Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani:	XII, 83 str.
ID:	20010373