magistrsko delo
Martin Pezdir (Avtor), Ljupčo Todorovski (Mentor)

Povzetek

Magistrsko delo predstavlja ogrodje in modele za spletno strganje podatkov o izdelkih iz spletnih trgovin, avtomatično razvrščanje teh izdelkov v kategorije ECOICOP (ang. European Classification of Individual Consumption according to Purpose ali evropska klasifikacija individualne potrošnje po namenu) s pomočjo strojnega učenja in računanje cenovnih indeksov HICŽP (harmonizirani indeks cen življenjskih potrebščin). V delu spletnega strganja opišemo probleme in izzive, s katerimi se soočamo pri avtomatiziranem prenosu podatkov iz spleta. Dotaknemo se tudi zakonodaje na področju spletnega strganja. Implementiramo spletni strgalnik v programskem jeziku Python, ki dnevno prenaša podatke o približno 30.000 izdelkih, naprodaj v spletnih trgovinah dveh največjih slovenskih trgovcih. V drugem delu naredimo uvod v področje strojnega učenja, s poudarkom na pretvorbi tekstovnih in kategoričnih spremenljivk v numerične. Predstavimo in implementiramo dve metodi za obdelavo tekstovnih podatkov - model vreče besed in algoritem word2vec. Opišemo probleme, ki se pojavljajo zaradi specifičnosti naše podatkovne množice in predstavimo rešitve za soočanje z njimi. S strojnim učenjem zgradimo hierarhični model, ki napoveduje v kateri oddelek, skupino, razred ali podrazred spada posamezen izdelek. V zadnjem delu s pomočjo uradne metodologije izračunamo cenovne indekse na posameznih nivojih. Zaradi razpoložljivosti podatkov se osredotočimo samo na oddelek 01 - Hrana in brezalkoholne pijače. Dobimo primerljive cenovne indekse, ki pa zaradi nepoznanega uradnega vzorca podatkov v posameznem agregatu včasih odstopajo od uradnega indeksa.

Ključne besede

spletno strganje;obdelava naravnega jezika;strojno učenje;klasifikacija;inflacija;

Podatki

Jezik: Slovenski jezik
Leto izida:
Tipologija: 2.09 - Magistrsko delo
Organizacija: UL FU - Fakulteta za upravo
Založnik: [M. Pezdir]
UDK: 519.8
COBISS: 32570115 Povezava se bo odprla v novem oknu
Št. ogledov: 1200
Št. prenosov: 242
Ocena: 0 (0 glasov)
Metapodatki: JSON JSON-RDF JSON-LD TURTLE N-TRIPLES XML RDFA MICRODATA DC-XML DC-RDF RDF

Ostali podatki

Sekundarni jezik: Angleški jezik
Sekundarni naslov: Calculation of price indices with machine learning for automatic product classification
Sekundarni povzetek: The thesis presents a framework and models for Web scraping of data on products from online stores and automatic classification of these produtcs into ECOICOP (European Classification of Individual Consumption according to Purpose) categories using machine learning. From classified products we are able to calculate an estimate of official HICP (Harmonized Index of Consumer Prices). In the part of web scraping, we describe the problems and challenges we face when using web crawlers for automated transfer of data from the web. We touch upon the legislation in the field of Web scraping. We also implement a Web scraper in Python, which daily transfers data on approximately 30.000 products sold by the two largest Slovenian retailers. In the second part, we make basic introduction to the field of machine learning, with an emphasis on the conversion of text and categorical variables into numerical ones. We present and implement two methods for processing text data - bag of words model and the word2vec algorithm. We describe the problems that arise due to the specifics of our dataset and present solutions to deal with them. We use machine learning to build a hierarhical model that predicts categories of ECOICOP an individual product belongs to. In the last part, we use official methodology to calculate an estimate of price indices on different levels. Due to the avaliability of data, we focus only on section 01 - Food and non-alcoholic beverages. We obtain price indices comparable to the official ones, with deviations due to unknown official data sample in each group of products.
Sekundarne ključne besede: Web scraping;natural language processing;machine learning;classification;inflation;
Vrsta dela (COBISS): Magistrsko delo/naloga
Študijski program: 0
Konec prepovedi (OpenAIRE): 1970-01-01
Komentar na gradivo: Univ. v Ljubljani, Fak. za matematiko in fiziko, Oddelek za matematiko, Finančna matematika - 2. stopnja
Strani: XVII, 90 str.
ID: 12074668
Priporočena dela: