(magistrsko delo)
Povzetek
Izhodišča in namen: Velikokrat na bioinformatskih podatkih izvajamo klasifikacijo, tj. razvrščanje elementov, predstavljenih z značilnicami, v enega od vnaprej določenih razredov. Sam postopek klasifikacije je zelo kompleksen, saj sestoji iz preprocesiranja podatkov, izbire klasifikatorske metode in optimizacije hiperparametrov. Zaradi kompleksnosti vse tri omenjene korake združujemo v t. i. klasifikacijske cevovode, katere morajo uporabniki, ki niso specialisti na področju strojnega učenja, načrtovati ročno. Ta postopek je časovno zelo zapleten, v določenih primerih pa se ne uspemo približati optimalni rešitvi.
Raziskovalna metodologija: Avtomatski razvoj in vrednotenje klasifikacijskih cevovodov smo donedavno reševali s pomočjo genetskega programiranja (angl. Genetic Programming, krajše GP), kjer posameznike predstavimo z drevesnimi strukturami. V tem magistrskem delu predlagamo novo rešitev za reševanje omenjenega problema s pomočjo stohastičnih populacijskih algoritmov po vzorih iz narave, kjer so posamezniki predstavljeni kot vektorji realnih števil.
Rezultati: Rezultati na bioinformatskih podatkovnih množicah dokazujejo, da so stohastični populacijski algoritmi po vzorih iz narave enostavni za uporabo in hkrati učinkoviti za avtomatski razvoj klasifikacijskih cevovodov.
Diskusija in zaključek: Ugotavljamo, da predlagana metoda omogoča uporabo poljubnega stohastičnega populacijskega algoritma po vzorih iz narave za avtomatsko načrtovanje klasifikacijskih cevovodov, kjer so posamezniki predstavljeni kot vektorji realnih števil.
Ključne besede
algoritmi po vzorih iz narave;AutoML;diferencialna evolucija;klasifikacija;optimizacija;
Podatki
Jezik: |
Slovenski jezik |
Leto izida: |
2019 |
Tipologija: |
2.09 - Magistrsko delo |
Organizacija: |
UM FERI - Fakulteta za elektrotehniko, računalništvo in informatiko |
Založnik: |
[I. Fister ml.] |
UDK: |
004.421(043.2) |
COBISS: |
2514084
|
Št. ogledov: |
861 |
Št. prenosov: |
164 |
Ocena: |
0 (0 glasov) |
Metapodatki: |
|
Ostali podatki
Sekundarni jezik: |
Angleški jezik |
Sekundarni naslov: |
Automatic design and valuation of classification pipelines in bioinformatics |
Sekundarni povzetek: |
Purpose: Many times, we conduct classification on bioinformatics data, i.e. classifying elements represented by features into one of several predefined classes. The classification process is very complex because of performing many complex tasks, like preprocessing data, selecting the classifier method and hyperparameter optimization. Due to the complexity, all three steps are merged in so-called classification pipelines, where users who are not machine learning experts need to manage them manually. However, this process is very time-consuming, and does not ensure that the optimal solution for the particular pipeline is found.
Methodology: Until now, an automatic development and evaluation of classification pipelines was performed using Genetic Programming (GP). In this master thesis, we propose a new method for solving the problem using stochastic population-based nature-inspired algorithms, where
individuals are represented as real valued vectors.
Results: The results on bioinformatic datasets demonstrate that stochastic population-based nature-inspired algorithms are user friendly, and effective for the automatic design of classification pipelines.
Discussion and conclusions: We conclude that the proposed method enables the use of any stochastic population-based nature-inspired algorithm for the automatic design of classification pipelines, where individuals are represented as real valued vectors. |
Sekundarne ključne besede: |
nature-inspired algorithms;AutoML;Differential Evolution;classification;optimization; |
Vrsta dela (COBISS): |
Magistrsko delo/naloga |
Komentar na gradivo: |
Univ. v Mariboru, Fak. za zdravstvene vede |
Strani: |
VI, 34 f. |
ID: |
11161776 |