magistrsko delo
Povzetek
V zadnjih letih se je z eksplozijo količine podatkov in kompleksnostjo napovednih problemov povečala potreba po velikih količinah ročno označenih podatkov, kar predstavlja izziv v postopku nadzorovanega strojnega učenja. Zaradi tega se šibki nadzor, ki uporablja šumno ali nenatančno označeno učno množico, izkaže kot privlačna alternativa.
Predstavimo širše področje šibkega nadzora, posvetimo pa se ogrodju Snorkel. Zgradimo več napovednih modelov kot šibke označevalce, katere nato uporabimo kot označevalne funkcije za generativni označevalni model Snorkel. Primerjamo točnost končnih modelov naučenih s pravimi oznakami in verjetnostnimi oznakami ogrodja Snorkel. Pokažemo, da imajo končni modeli naučeni z oznakami ogrodja Snorkel, primerljivo ali celo boljšo uspešnost kot modeli naučeni s pravimi oznakami.
Ključne besede
šibko nadzorovano učenje;avtomatsko označevanje podatkov;orodje Snorkel;računalništvo in informatika;magisteriji;
Podatki
Jezik: |
Slovenski jezik |
Leto izida: |
2023 |
Tipologija: |
2.09 - Magistrsko delo |
Organizacija: |
UL FRI - Fakulteta za računalništvo in informatiko |
Založnik: |
[B. Bračko] |
UDK: |
004.85(043.2) |
COBISS: |
171797251
|
Št. ogledov: |
49 |
Št. prenosov: |
26 |
Ocena: |
0 (0 glasov) |
Metapodatki: |
|
Ostali podatki
Sekundarni jezik: |
Angleški jezik |
Sekundarni naslov: |
Weakly supervised programmatic labelling of training data with the Snorkel toolkit |
Sekundarni povzetek: |
In recent years, the explosion of available data and the complexity of prediction problems has increased the need for large amounts of manually labelled data, posing a challenge to the supervised machine learning process. For this reason, weak supervision using noisy or inaccurately labelled training sets proves to be an attractive alternative.
We present the broader area of weak supervision focusing on the Snorkel framework. We construct several predictive models as weak classifiers, which we then use as labelling functions for the Snorkel generative labeling model. We compare the accuracy of the final models learned with the true labels and the Snorkel probabilistic labels. We show that the final models trained with Snorkel labels have comparable or even better performance than the models trained with the true labels. |
Sekundarne ključne besede: |
machine learning;weak supervision;automatic data labeling;Snorkel toolkit;computer science;computer and information science;master's degree;Strojno učenje;Računalništvo;Univerzitetna in visokošolska dela; |
Vrsta dela (COBISS): |
Magistrsko delo/naloga |
Študijski program: |
1000471 |
Konec prepovedi (OpenAIRE): |
1970-01-01 |
Komentar na gradivo: |
Univ. v Ljubljani, Fak. za računalništvo in informatiko |
Strani: |
77 str. |
ID: |
20386133 |