(magistrsko delo)
Iztok Fister (Author), Milan Zorman (Mentor)

Abstract

Izhodišča in namen: Velikokrat na bioinformatskih podatkih izvajamo klasifikacijo, tj. razvrščanje elementov, predstavljenih z značilnicami, v enega od vnaprej določenih razredov. Sam postopek klasifikacije je zelo kompleksen, saj sestoji iz preprocesiranja podatkov, izbire klasifikatorske metode in optimizacije hiperparametrov. Zaradi kompleksnosti vse tri omenjene korake združujemo v t. i. klasifikacijske cevovode, katere morajo uporabniki, ki niso specialisti na področju strojnega učenja, načrtovati ročno. Ta postopek je časovno zelo zapleten, v določenih primerih pa se ne uspemo približati optimalni rešitvi. Raziskovalna metodologija: Avtomatski razvoj in vrednotenje klasifikacijskih cevovodov smo donedavno reševali s pomočjo genetskega programiranja (angl. Genetic Programming, krajše GP), kjer posameznike predstavimo z drevesnimi strukturami. V tem magistrskem delu predlagamo novo rešitev za reševanje omenjenega problema s pomočjo stohastičnih populacijskih algoritmov po vzorih iz narave, kjer so posamezniki predstavljeni kot vektorji realnih števil. Rezultati: Rezultati na bioinformatskih podatkovnih množicah dokazujejo, da so stohastični populacijski algoritmi po vzorih iz narave enostavni za uporabo in hkrati učinkoviti za avtomatski razvoj klasifikacijskih cevovodov. Diskusija in zaključek: Ugotavljamo, da predlagana metoda omogoča uporabo poljubnega stohastičnega populacijskega algoritma po vzorih iz narave za avtomatsko načrtovanje klasifikacijskih cevovodov, kjer so posamezniki predstavljeni kot vektorji realnih števil.

Keywords

algoritmi po vzorih iz narave;AutoML;diferencialna evolucija;klasifikacija;optimizacija;

Data

Language: Slovenian
Year of publishing:
Typology: 2.09 - Master's Thesis
Organization: UM FERI - Faculty of Electrical Engineering and Computer Science
Publisher: [I. Fister ml.]
UDC: 004.421(043.2)
COBISS: 2514084 Link will open in a new window
Views: 861
Downloads: 164
Average score: 0 (0 votes)
Metadata: JSON JSON-RDF JSON-LD TURTLE N-TRIPLES XML RDFA MICRODATA DC-XML DC-RDF RDF

Other data

Secondary language: English
Secondary title: Automatic design and valuation of classification pipelines in bioinformatics
Secondary abstract: Purpose: Many times, we conduct classification on bioinformatics data, i.e. classifying elements represented by features into one of several predefined classes. The classification process is very complex because of performing many complex tasks, like preprocessing data, selecting the classifier method and hyperparameter optimization. Due to the complexity, all three steps are merged in so-called classification pipelines, where users who are not machine learning experts need to manage them manually. However, this process is very time-consuming, and does not ensure that the optimal solution for the particular pipeline is found. Methodology: Until now, an automatic development and evaluation of classification pipelines was performed using Genetic Programming (GP). In this master thesis, we propose a new method for solving the problem using stochastic population-based nature-inspired algorithms, where individuals are represented as real valued vectors. Results: The results on bioinformatic datasets demonstrate that stochastic population-based nature-inspired algorithms are user friendly, and effective for the automatic design of classification pipelines. Discussion and conclusions: We conclude that the proposed method enables the use of any stochastic population-based nature-inspired algorithm for the automatic design of classification pipelines, where individuals are represented as real valued vectors.
Secondary keywords: nature-inspired algorithms;AutoML;Differential Evolution;classification;optimization;
Type (COBISS): Master's thesis/paper
Thesis comment: Univ. v Mariboru, Fak. za zdravstvene vede
Pages: VI, 34 f.
ID: 11161776