Avtomatsko načrtovanje in vrednotenje klasifikacijskih cevovodov v bioinformatiki

(magistrsko delo)

Iztok Fister (Avtor), Milan Zorman (Mentor)

Povzetek

Izhodišča in namen: Velikokrat na bioinformatskih podatkih izvajamo klasifikacijo, tj. razvrščanje elementov, predstavljenih z značilnicami, v enega od vnaprej določenih razredov. Sam postopek klasifikacije je zelo kompleksen, saj sestoji iz preprocesiranja podatkov, izbire klasifikatorske metode in optimizacije hiperparametrov. Zaradi kompleksnosti vse tri omenjene korake združujemo v t. i. klasifikacijske cevovode, katere morajo uporabniki, ki niso specialisti na področju strojnega učenja, načrtovati ročno. Ta postopek je časovno zelo zapleten, v določenih primerih pa se ne uspemo približati optimalni rešitvi. Raziskovalna metodologija: Avtomatski razvoj in vrednotenje klasifikacijskih cevovodov smo donedavno reševali s pomočjo genetskega programiranja (angl. Genetic Programming, krajše GP), kjer posameznike predstavimo z drevesnimi strukturami. V tem magistrskem delu predlagamo novo rešitev za reševanje omenjenega problema s pomočjo stohastičnih populacijskih algoritmov po vzorih iz narave, kjer so posamezniki predstavljeni kot vektorji realnih števil. Rezultati: Rezultati na bioinformatskih podatkovnih množicah dokazujejo, da so stohastični populacijski algoritmi po vzorih iz narave enostavni za uporabo in hkrati učinkoviti za avtomatski razvoj klasifikacijskih cevovodov. Diskusija in zaključek: Ugotavljamo, da predlagana metoda omogoča uporabo poljubnega stohastičnega populacijskega algoritma po vzorih iz narave za avtomatsko načrtovanje klasifikacijskih cevovodov, kjer so posamezniki predstavljeni kot vektorji realnih števil.

Ključne besede

algoritmi po vzorih iz narave;AutoML;diferencialna evolucija;klasifikacija;optimizacija;

Podatki

Jezik:	Slovenski jezik
Leto izida:	2019
Tipologija:	2.09 - Magistrsko delo
Organizacija:	UM FERI - Fakulteta za elektrotehniko, računalništvo in informatiko
Založnik:	[I. Fister ml.]
UDK:	004.421(043.2)
COBISS:	2514084
Št. ogledov:	861
Št. prenosov:	164
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Angleški jezik
Sekundarni naslov:	Automatic design and valuation of classification pipelines in bioinformatics
Sekundarni povzetek:	Purpose: Many times, we conduct classification on bioinformatics data, i.e. classifying elements represented by features into one of several predefined classes. The classification process is very complex because of performing many complex tasks, like preprocessing data, selecting the classifier method and hyperparameter optimization. Due to the complexity, all three steps are merged in so-called classification pipelines, where users who are not machine learning experts need to manage them manually. However, this process is very time-consuming, and does not ensure that the optimal solution for the particular pipeline is found. Methodology: Until now, an automatic development and evaluation of classification pipelines was performed using Genetic Programming (GP). In this master thesis, we propose a new method for solving the problem using stochastic population-based nature-inspired algorithms, where individuals are represented as real valued vectors. Results: The results on bioinformatic datasets demonstrate that stochastic population-based nature-inspired algorithms are user friendly, and effective for the automatic design of classification pipelines. Discussion and conclusions: We conclude that the proposed method enables the use of any stochastic population-based nature-inspired algorithm for the automatic design of classification pipelines, where individuals are represented as real valued vectors.
Sekundarne ključne besede:	nature-inspired algorithms;AutoML;Differential Evolution;classification;optimization;
Vrsta dela (COBISS):	Magistrsko delo/naloga
Komentar na gradivo:	Univ. v Mariboru, Fak. za zdravstvene vede
Strani:	VI, 34 f.
ID:	11161776