master's thesis
Vanda Antolović (Avtor), Matjaž Kukar (Mentor)

Povzetek

The evolution of data and data science technology started bringing machine learning algorithms to the data to ease the process of training and reduce the possibility of data corruption by transfers from system to system. We picked five combinations of Relational database management systems and integrated or semi-integrated machine learning toolsets - SQLite with Python, PostgresML with Python, MariaDB with MindsDB, PostgreSQL with MindsDB, and Oracle with Oracle Machine Learning. All five combinations were compared with the help of predictive performance and the training time they have achieved over seven datasets. MariaDB with MindsDB had the slowest training time, while MindsDB in general could not evaluate datasets containing longer strings or produce qualitative measures for assessing datasets with a regression target value, such as proper measurement of squared differences between the actual values and the estimated values. Oracle with Oracle Machine Learning produced the best results, as it was able to accurately evaluate all datasets with a fast training time. Even though the same is true for Python with SQLite, data had to be optimized and transformed into numerical for the main Python machine learning library, Scikit-learn, to be able to process the data. Considering all of that, a simple decision support system was created to help make a sensible decision on which toolset to use to suit the user’s needs.

Ključne besede

machine learning;data mining;RDBMS;classification;regression;training time;computer science;master's thesis;

Podatki

Jezik: Angleški jezik
Leto izida:
Tipologija: 2.09 - Magistrsko delo
Organizacija: UL FRI - Fakulteta za računalništvo in informatiko
Založnik: [V. Antolović]
UDK: 004.8:004.652(043.2)
COBISS: 136461059 Povezava se bo odprla v novem oknu
Št. ogledov: 71
Št. prenosov: 12
Ocena: 0 (0 glasov)
Metapodatki: JSON JSON-RDF JSON-LD TURTLE N-TRIPLES XML RDFA MICRODATA DC-XML DC-RDF RDF

Ostali podatki

Sekundarni jezik: Slovenski jezik
Sekundarni naslov: Ovrednotenje in primerjava orodij za podatkovno rudarjenje in strojno učenje znotraj sistemov za upravljanje relacijskih podatkovnih baz
Sekundarni povzetek: Razvoj podatkov in podatkovne znanosti sta začela prinašati algoritme strojnega učenja neposredno k podatkom, kar je olajšalo proces učenja in zmanjšalo možnost poškodovanja podatkov s prenosom iz sistema v sistem. V magistrskem delu smo izbrali pet kombinacij sistemov upravljanja relacijskih baz podatkov in integriranih ali polintegriranih naborov orodij za strojno učenje - Python z SQLite, Python s PostgresML, MariaDB z MindsDB, PostgreSQl z MindsDB ter Oracle z Oracle Machine Learning. Vseh pet kombinacij smo primerjali s pomočjo metrike točnosti in časa učenja, ki so ga dosegli nad sedmih naborih podatkov. MariaDB z MindsdDB je imel napočasnejši čas učenja, medtem ko MindsDB ni mogel oceniti naborov podatkov, ki vsebuje večje nize, niti izdelati kakovostnih meril za oceno regresijeskega nabora podatkov. Oracle z Oracle Machine Learning je dosegel najboljše rezulate, saj je natančno ocenil vse nabore podatkov s hitrim časom učenja. Enako sicer, velja za Python s SQLite, vendar je bilo treba podatke optimizirati in spremeniti v numerične, da je lahko Pythonova glavna knjžnica za strojno učenje Scikit-learn obdelala podatke. Glede na vse je bil ustvarjen preprost sistem za podporo odločanju, ki pomaga sprejeti odločitev, kateri nabor orodij uporabiti pri danih potrebah uporabnikov.
Sekundarne ključne besede: klasifikacija;regresija;čas treninga;magisteriji;Strojno učenje;Podatkovno rudarjenje;Relacijske zbirke podatkov;Računalništvo;Univerzitetna in visokošolska dela;
Vrsta dela (COBISS): Magistrsko delo/naloga
Študijski program: 1000471
Konec prepovedi (OpenAIRE): 1970-01-01
Komentar na gradivo: Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani: VI, 135 str.
ID: 17361127