Razvoj odprtokodne knjižnice za generiranje umetnih kategoričnih naborov podatkov

magistrsko delo

Miha Malenšek (Avtor), Jure Demšar (Mentor), Blaž Mramor (Komentor), Blaž Škrlj (Komentor)

Povzetek

Umetni nabori podatkov se pogosto uporabljajo za testiranje in evalvacijo modelov strojnega učenja. Za hitra testiranja obstajajo preprosti, predpripravljeni nabori, kot sta Iris ali Wine iz knjižnice Scikit-learn. Za tekmovanja in industrijsko testiranje pa se uporabljajo prečiščene različice resničnih naborov podatkov. Zaradi varovanja osebnih podatkov, razpoložljivosti podatkov in razložljivosti modelov narašča potreba po umetnih naborih podatkov. Večina knjižnic za strojno učenje že podpira generiranje osnovnih umetnih naborov podatkov, a gre predvsem za zvezne podatke, medtem ko lahko v literaturi opazimo pomanjkanje orodij za generiranje umetnih kategoričnih naborov podatkov. Zato smo razvili, testirali in objavili prostodostopno knjižnico za generiranje umetnih naborov podatkov s kategoričnimi značilkami. Knjižnica omogoča generiranje preprostih in kompleksnih naborov s popolnim nadzorom nad procesom. Uporabo knjižnice smo predstavili v treh primerih, ki vključujejo osnovno delovanje, simulacijo resničnih naborov podatkov in uporabo knjižnice v eksperimentalnem kontekstu skozi primerjavo modelov DeepFM in logistične regresije na redkih naborih podatkov z različnimi interakcijami značilk.

Ključne besede

generiranje podatkov;nabori podatkov; kategorični podatki;umetni nabori podatkov ;magisteriji;

Podatki

Jezik:	Slovenski jezik
Leto izida:	2024
Tipologija:	2.09 - Magistrsko delo
Organizacija:	UL FRI - Fakulteta za računalništvo in informatiko
Založnik:	[M. Malenšek]
UDK:	004(043.2)
COBISS:	210076163
Št. ogledov:	108
Št. prenosov:	48
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Angleški jezik
Sekundarni naslov:	Development of an open-source library for the generation of artificial categorical datasets
Sekundarni povzetek:	Synthetic datasets are often used for testing and evaluating machine learning models. For quick testing, there are simple, pre-prepared datasets such as Iris or Wine from the Scikit-learn library. For competitions and industrial testing, refined versions of real datasets are used. Due to data privacy, data accessibility, and model explainability, the demand for synthetic datasets is growing. Most machine learning libraries support generating basic synthetic datasets, but mainly for continuous data. However, literature indicates a lack of tools for generating synthetic categorical datasets. Therefore, we developed, tested, and released an open-source library for generating synthetic datasets with categorical features. Our framework allows for the generation of simple and complex datasets with full control over the generative process. We demonstrated its use in three use cases. The first showcases basic functionaliy, the second one simulates a real dataset, while the third one compares DeepFM and logistic regression models on sparse data with various feature interactions.
Sekundarne ključne besede:	data generation;datasets;categorical data; synthetic datasets;computer science;master's degree;
Vrsta dela (COBISS):	Magistrsko delo/naloga
Študijski program:	1001017
Konec prepovedi (OpenAIRE):	1970-01-01
Komentar na gradivo:	Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani:	1 spletni vir (1 datoteka PDF (80 str.))
ID:	24892247