magistrsko delo

Abstract

Osrednji namen tega magistrskega dela je testiranje različnih pristopov in izvedba več eksperimentov na različnih podatkovnih zbirkah, razporejenih na infrastrukturi za obdelavo velikih podatkov. Da bi dosegli ta cilj, smo magistrsko nalogo strukturirali v tri glavne dele. Najprej smo pridobili deset javno dostopnih podatkovnih zbirk z različnih področij, ki so dovolj kompleksne (glede na obseg podatkov in število atributov) za namen izvajanja analize velikih podatkov na ustrezen način. Zbrane podatke smo najprej predhodno obdelali, da bi bili združljivi s podatkovno bazo MongoDB. V drugem delu smo analizirali zbrane podatke in izvedli različne poskuse s pomočjo orodja R, ki omogoča izvedbo statistične obdelave podatkov. Orodje R smo pri tem povezali s podatkovno bazo MongoDB. V zadnjem delu smo uporabili še ogrodje Hadoop, s pomočjo katerega smo dokončali načrtovano infrastrukturo za obdelavo in analizo velikih podatkov. Za namen tega magistrskega dela smo vzpostavili sistem v načinu enega vozlišča v gruči. Analizirali smo razlike z vidika učinkovitosti vzpostavljene infrastrukture in delo zaključili z razpravo o prednostih in slabostih uporabe predstavljenih tehnologij za obdelavo velikih podatkov.

Keywords

machine learning;big data;data analysis;MongoDB;Hadoop;

Data

Language: English
Year of publishing:
Typology: 2.09 - Master's Thesis
Organization: UM FERI - Faculty of Electrical Engineering and Computer Science
Publisher: D. Adanza Dopazo
UDC: 004.8:004.65(043.2)
COBISS: 20345622 Link will open in a new window
Views: 971
Downloads: 153
Average score: 0 (0 votes)
Metadata: JSON JSON-RDF JSON-LD TURTLE N-TRIPLES XML RDFA MICRODATA DC-XML DC-RDF RDF

Other data

Secondary language: Slovenian
Secondary title: Machine learning on big data using MongoDB, R and Hadoop
Secondary abstract: The main purpose of this master thesis is to test different approaches and perform several experiments on different datasets, deployed on a big data infrastructure. In order to achieve that goal we will structure the thesis in three different parts. First of all, we will obtain ten publicly available datasets from different domains, which are complex enough (in terms of size and number of attributes) in order to perform the big data analysis in the proper way. Once they are gathered, we will pre-process them in order to be compatible with the MongoDB database. Second of all, we will analyse the data and perform various experiments using the R statistical and data analysis tool, which at the same time will be linked to the MongoDB database. Finally, we will use Hadoop for deploying this structure on big data. For the purpose of this master thesis, we will use it in a single node cluster mode. We will analyse the differences from the performance point of view and discuss the advantages and disadvantages of using the presented big data technologies.
Secondary keywords: strojno učenje;umetna inteligenca;veliki podatki;obdelava podatkov;analiza podatkov;orodje R;podatkovna baza MongoDB;ogrodje Hadoop;magistrske naloge;
URN: URN:SI:UM:
Type (COBISS): Master's thesis/paper
Thesis comment: Univ. v Mariboru, Fak. za elektrotehniko, računalništvo in informatiko, Informatika in tehnologije komuniciranja
Pages: XII, 107, IV f.
ID: 9228719