Povzetek
In the paper, we present the initial preparatory phase of the compilation of a Slovene safety dataset containing harmful or offensive prompts and safe responses to them. The dataset will be used to fine-tune Slovene large language models in order to prevent unwanted model behavior and misuse by malicious actors for a diverse range of harmful activities, such as scams, toxic or offensive content generation, automated political campaigning, vandalism, and terrorism. We provide an overview of existing safety datasets for other languages and describe the different methods used to compile them, as well as the harm areas typically covered in similar datasets. We continue by listing the most frequent vulnerabilities of existing LLMs and how to take them in to account when designing a safety dataset that covers not only the general harm areas, but also those specific to Slovenia. Wep ropose a framework for the manual generation of Slovene prompts and responses based on an initial taxonomy of relevant topics, along with additional instructions to provide for more linguistic diversity with in the dataset and account forpotential frequent jailbreaks.
Ključne besede
large language models;responsible artificial intelligence;safety datasets;Slovene;
Podatki
Jezik: |
Angleški jezik |
Leto izida: |
2024 |
Tipologija: |
1.08 - Objavljeni znanstveni prispevek na konferenci |
Organizacija: |
UL FRI - Fakulteta za računalništvo in informatiko |
UDK: |
81'322:004.8 |
COBISS: |
212026627
|
Št. ogledov: |
15 |
Št. prenosov: |
2 |
Ocena: |
0 (0 glasov) |
Metapodatki: |
|
Ostali podatki
Sekundarni jezik: |
Slovenski jezik |
Sekundarni naslov: |
Prvi koraki pri izgradnji varnostne učne množice za slovenske velike jezikovne modele |
Sekundarni povzetek: |
V prispevku predstavljamo začetne korake pri izgradnji slovenske varnostne učne množice s škodljivimi ali žaljivimi navodili in varnimi odgovori nanje. Množica bo uporabljena za prilagajanje slovenskih velikih jezikovnih modelov (VJM), kar bo preprečilo neželeno ravnanje modelov in zlorabo s strani negativnih akterjev pri različnih škodljivih dejavnostih, kot so prevare, generiranje žaljivih ali toksičnih vsebin, avtomatsko politično lobiranje, vandalizem in terorizem. Opravimo pregled obstoječih varnostnih učnih množic in opišemo, kako so bile zgrajene, ter najpogostejša tematska področja, ki jih podobne množice pokrivajo. Naštejemo tudi najpogostejše ranljivosti obstoječih VJM in kako jih upoštevati pri zasnovi varnostne učne množice, ki pokriva ne le splošna tematska področja, temveč tudi tista, ki so specifična za Slovenijo. Opišemo predlog delotoka za ročno tvorjenje slovenskih navodil in odgovorov na podlagi začetne različice taksonomije tematik, vključno s predlogi, kako poskrbeti za večjo jezikovno raznovrstnost znotraj množice in upoštevati potencialne načine zaobhajanja varnostnih omejitev modelov. |
Sekundarne ključne besede: |
veliki jezikovni modeli;odgovorna umetna inteligenca;varnostne učne množice;slovenščina; |
Vrsta dela (COBISS): |
Drugo |
Strani: |
Str. 47-65 |
ID: |
25326247 |