magistrsko delo
Gal Petkovšek (Avtor), Slavko Žitnik (Mentor), Tadej Justin (Komentor)

Povzetek

Zbiranje in označevanje podatkov je drago in zamudno. V tem delu predstavljamo ogrodje, ki izkorišča moč velikih jezikovnih modelov za umetno tvorjenje sintetičnih podatkov. Testirali smo ga na treh nalogah uvrščanja besedil in z njegovo uporabo izboljšali izhodiščen rezultate. Predstavili smo več metod ocenjevanja kvalitete umetnih množic ter predstavili, kako ugotovitve uporabimo za razvoj novih pristopov tvorjenja umetnih primerkov. Razvitih in testiranih je bilo več tehnik umetnega tvorjenja, od katerih izstopa dodajanje pogostih besed v ukazni poziv, kar bistveno izboljša rezultate v primeru, ko imamo na voljo tako majhno množico označenih, kot tudi veliko množico neoznačenih primerkov. Najboljše rezultate smo dosegli z združevanjem umetno tvorjenih podatkov in LLM-označenih primerkov iz velike množice neoznačenih primerkov. Glavni prispevki naloge vključujejo implementacijo ogrodja in razvite strategije tvorjenja, ki smo jih vrednotili z različnimi metrikami na več scenarijih.

Ključne besede

veliki jezikovni modeli;umetno tvorjeni podatki;uvrščanje besedil;podatkovne množice;magisteriji;

Podatki

Jezik: Slovenski jezik
Leto izida:
Tipologija: 2.09 - Magistrsko delo
Organizacija: UL FRI - Fakulteta za računalništvo in informatiko
Založnik: [G. Petkovšek]
UDK: 004.85:81'322(043.2)
COBISS: 210392323 Povezava se bo odprla v novem oknu
Št. ogledov: 77
Št. prenosov: 629
Ocena: 0 (0 glasov)
Metapodatki: JSON JSON-RDF JSON-LD TURTLE N-TRIPLES XML RDFA MICRODATA DC-XML DC-RDF RDF

Ostali podatki

Sekundarni jezik: Angleški jezik
Sekundarni naslov: Automatized construction of learning corpuses with the help of large language models
Sekundarni povzetek: Collecting and labeling data is costly and time-consuming. In this work, we present a framework that leverages the power of large language models to artificially generate synthetic data. We tested it on three text classification tasks and achieved improvements over baseline results. We introduced several methods for evaluating the quality of artificial datasets and demonstrated how these insights can be used to develop new generation approaches for synthetic data. Several artificial generation techniques were developed and tested, with the most notable being the addition of frequent words in the prompt, which significantly improves results in scenarios with both a small labeled set and a large unlabeled set available. The highest performance was achieved by combining artificially generated data with LLM-labeled samples from a large set of unlabeled examples. The main contributions of this work are the implemented framework and the developed generation strategies, which we evaluated using multiple metrics across various scenarios.
Sekundarne ključne besede: large language models;synthetic data;natural language porcessing;text classification;datasets;computer science;master's degree;Obdelava naravnega jezika (računalništvo);Računalniško jezikoslovje;Računalništvo;
Vrsta dela (COBISS): Magistrsko delo/naloga
Študijski program: 1000471
Konec prepovedi (OpenAIRE): 1970-01-01
Komentar na gradivo: Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani: 1 spletni vir (1 datoteka PDF (96 str.))
ID: 25170657