master's thesis
Povzetek
Cell-to-cell variability is often associated with cell differentiation in embryo development or cancer outbursts. Although some of the variability in single-cell RNA sequencing (scRNA-seq) experiments is derived from technical noise, a significant proportion is still attributed to the biological processes within the cell. In this Master's thesis, we propose a novel approach to predict cell-to-cell gene expression variability and mean expression directly from the DNA sequence. For this purpose, we use the Enformer, a deep learning transformer model, to embed the DNA sequence into a more favorable feature space, from which we predict the mean expression and overdispersion of scRNA gene expression. We evaluated our approach on the mouse and human data gathered with two scRNA-seq protocols. Our approach can explain up to 60% and 25% of the variance of overdispersion in mouse and human datasets, respectively. Furthermore, in the thesis, we address the changes in the performance of our models caused by the differences in the scRNA-seq protocols.
Ključne besede
scRNA-seq;gene expression variability;deep learning;computer science;master's thesis;
Podatki
| Jezik: |
Angleški jezik |
| Leto izida: |
2022 |
| Tipologija: |
2.09 - Magistrsko delo |
| Organizacija: |
UL FRI - Fakulteta za računalništvo in informatiko |
| Založnik: |
[P. Kojanec] |
| UDK: |
004.8:575(043.2) |
| COBISS: |
124837891
|
| Št. ogledov: |
31 |
| Št. prenosov: |
17 |
| Ocena: |
0 (0 glasov) |
| Metapodatki: |
|
Ostali podatki
| Sekundarni jezik: |
Slovenski jezik |
| Sekundarni naslov: |
Modeliranje variabilnosti genskega izražanja posameznih celic na podlagi sekvenc DNA |
| Sekundarni povzetek: |
Variabilnost genskega izražanja večkrat povezujemo z dejavniki, ki uravnavajo celično diferenciacijo v zgodnjih fazah embrionalnega razvoja ali pa tvorbo rakavih celic. Variabilnost genskega izražanja posameznih celic lahko merimo z meritvami scRNA-seq, ki pa so zaradi tehničnih pomanjkljivosti zelo šumne. V magistrski nalogi predstavimo inovativen pristop za napoved variabilnosti genskega izražanja na podlagi genskih zaporedij DNA. Pri tem smo uporabili model globokega strojnega učenja Enformer, ki zaporedja DNA vloži v bolj učinkovit prostor značilk. Z uporabo linearnih modelov nato iz vložitev sekvenc napovemo povprečno gensko izražanje in razpršenost podatkov scRNA-seq. Predlagani pristop smo ovrednotili na podatkih dveh različnih organizmov, pridobljenih z dvema različnima protokoloma scRNA-seq. S predlaganim pristopom lahko pojasnimo do 60% variance razpršenosti genskega izražanja na naboru podatkov o miših in 25% na naboru človeških podatkov. |
| Sekundarne ključne besede: |
scRNA-seq;variabilnost genskega izražanja;globoko strojno učenje;magisteriji;Strojno učenje;Modeliranje podatkov (računalništvo);Genetika;Računalništvo;Univerzitetna in visokošolska dela; |
| Vrsta dela (COBISS): |
Magistrsko delo/naloga |
| Študijski program: |
1000471 |
| Konec prepovedi (OpenAIRE): |
1970-01-01 |
| Komentar na gradivo: |
Univ. v Ljubljani, Fak. za računalništvo in informatiko |
| Strani: |
VI, 55 str. |
| ID: |
16608103 |