magistrsko delo
Povzetek
Umetni nabori podatkov se pogosto uporabljajo za testiranje in evalvacijo modelov strojnega učenja. Za hitra testiranja obstajajo preprosti, predpripravljeni nabori, kot sta Iris ali Wine iz knjižnice Scikit-learn. Za tekmovanja in industrijsko testiranje pa se uporabljajo prečiščene različice resničnih naborov podatkov. Zaradi varovanja osebnih podatkov, razpoložljivosti podatkov in razložljivosti modelov narašča potreba po umetnih naborih podatkov. Večina knjižnic za strojno učenje že podpira generiranje osnovnih umetnih naborov podatkov, a gre predvsem za zvezne podatke, medtem ko lahko v literaturi opazimo pomanjkanje orodij za generiranje umetnih kategoričnih naborov podatkov. Zato smo razvili, testirali in objavili prostodostopno knjižnico za generiranje umetnih naborov podatkov s kategoričnimi značilkami. Knjižnica omogoča generiranje preprostih in kompleksnih naborov s popolnim nadzorom nad procesom. Uporabo knjižnice smo predstavili v treh primerih, ki vključujejo osnovno delovanje, simulacijo resničnih naborov podatkov in uporabo knjižnice v eksperimentalnem kontekstu skozi primerjavo modelov DeepFM in logistične regresije na redkih naborih podatkov z različnimi interakcijami značilk.
Ključne besede
generiranje podatkov;nabori podatkov; kategorični podatki;umetni nabori podatkov
;magisteriji;
Podatki
Jezik: |
Slovenski jezik |
Leto izida: |
2024 |
Tipologija: |
2.09 - Magistrsko delo |
Organizacija: |
UL FRI - Fakulteta za računalništvo in informatiko |
Založnik: |
[M. Malenšek] |
UDK: |
004(043.2) |
COBISS: |
210076163
|
Št. ogledov: |
108 |
Št. prenosov: |
48 |
Ocena: |
0 (0 glasov) |
Metapodatki: |
|
Ostali podatki
Sekundarni jezik: |
Angleški jezik |
Sekundarni naslov: |
Development of an open-source library for the generation of artificial categorical datasets |
Sekundarni povzetek: |
Synthetic datasets are often used for testing and evaluating machine learning models. For quick testing, there are simple, pre-prepared datasets such as Iris or Wine from the Scikit-learn library. For competitions and industrial testing, refined versions of real datasets are used. Due to data privacy, data accessibility, and model explainability, the demand for synthetic datasets is growing. Most machine learning libraries support generating basic synthetic datasets, but mainly for continuous data. However, literature indicates a lack of tools for generating synthetic categorical datasets. Therefore, we developed, tested, and released an open-source library for generating synthetic datasets with categorical features. Our framework allows for the generation of simple and complex datasets with full control over the generative process. We demonstrated its use in three use cases. The first showcases basic functionaliy, the second one simulates a real dataset, while the third one compares DeepFM and logistic regression models on sparse data with various feature interactions. |
Sekundarne ključne besede: |
data generation;datasets;categorical data; synthetic datasets;computer science;master's degree; |
Vrsta dela (COBISS): |
Magistrsko delo/naloga |
Študijski program: |
1001017 |
Konec prepovedi (OpenAIRE): |
1970-01-01 |
Komentar na gradivo: |
Univ. v Ljubljani, Fak. za računalništvo in informatiko |
Strani: |
1 spletni vir (1 datoteka PDF (80 str.)) |
ID: |
24892247 |