diplomsko delo
Povzetek
V diplomskem delu smo uporabili različne metode strojnega učenja za uvrščanje virusnih zaporedij v ustrezne taksonomske skupine. Z dostopanjem do podatkovne zbirke NCBI, ki hrani biološke in biotehnološke podatke, smo najprej sestavili celotno taksonomsko strukturo znanih virusnih zaporedij. Podatke smo ustrezno filtrirali in tako zgradili množico učnih primerov. Nato smo uporabili klasične metode strojnega učenja in metodo strukturiranega napovedovanja in ovrednotili uspešnost napovedovanja v taksonomske skupine. V delu smo preučili, kateri načini opisovanja genomskih zaporedij so najprimernejši. Opis genomskih zaporedij s k-terkami ne zajame vseh podrobnosti genomov, zato so najboljši doseženi rezultati le nekoliko boljši od večinskega klasifikatorja. Predznanje o evolucijski povezanosti taksonomskih skupin nekoliko izboljša napovedi modelov, ki to znanje lahko uporabijo.
Ključne besede
strojno učenje;klasifikacija;metoda podpornih vektorjev;naključni gozdovi;virusna zaporedja;strukturirano strojno učenje;računalništvo;računalništvo in informatika;univerzitetni študij;diplomske naloge;
Podatki
Jezik: |
Slovenski jezik |
Leto izida: |
2015 |
Tipologija: |
2.11 - Diplomsko delo |
Organizacija: |
UL FRI - Fakulteta za računalništvo in informatiko |
Založnik: |
[M. Kopar] |
UDK: |
004.85(043.2) |
COBISS: |
1536600003
|
Št. ogledov: |
821 |
Št. prenosov: |
121 |
Ocena: |
0 (0 glasov) |
Metapodatki: |
|
Ostali podatki
Sekundarni jezik: |
Angleški jezik |
Sekundarni naslov: |
Classification of viral genomes using machine learning |
Sekundarni povzetek: |
In this diploma thesis our goal was to classify viral sequences into taxonomic groups by using different machine learning methods. We assembled the taxonomic structure by collecting data from NCBI web site. To clean the data we applied several filtering steps. We then evaluated the predictive performance of classical and structured machine learning methods on the task of classification in taxonomy groups. We wanted to determine the most suitable way to describe genomic sequences. Using k-mers to describe the genomic composition yielded poor predictive models, with best performance slightly above the performance of the majority classifier. Methods, which are able to use prior knowledge on the taxonomic relationships between classes, performed slightly better than methods, which did not use such information. |
Sekundarne ključne besede: |
machine learning;classification;support vector machine;random forest;viral sequences;structured machine learning;computer science;computer and information science;diploma; |
Vrsta datoteke: |
application/pdf |
Vrsta dela (COBISS): |
Diplomsko delo/naloga |
Študijski program: |
1000468 |
Konec prepovedi (OpenAIRE): |
1970-01-01 |
Komentar na gradivo: |
Univ. v Ljubljani, Fak. za računalništvo in informatiko |
Strani: |
43 str. |
ID: |
9043477 |