Zaznavanje zavajanja v kliničnih raziskavah z velikimi jezikovnimi modeli

diplomsko delo

Tjaš Ajdovec (Avtor), Marko Robnik Šikonja (Mentor), Simon Šuster (Komentor)

Povzetek

Zavajanje v raziskovalnih poročilih zajema prakse poročanja, ki izkrivljeno predstavijo rezultate. Posebej kritično je področje medicine, kjer je zavajanje prisotno pri več kot 50% randomiziranih kontroliranih raziskav (RCT), ki ne dosežejo praga statistične značilnosti. Primerjava napovedanega in poročanega izida je ključnega pomena za zaznavanje več vrst zavajanja, kot je npr. selektivno poročanje. Izdelali smo sistem za strojno zaznavanje zavajanja v kliničnih raziskavah. Uporabili smo 300 parov izidov, označenih s semantično podobnostjo. Preizkusili smo statistične modele, maskirne jezikovne modele (MLM) in generativne velike jezikovne modele (LLM). Generirali smo ocene podobnosti in uporabili Youdenov indeks za določanje praga klasifikacije. Predlagan pristop k primerjavi izidov z LLM zajema oblikovanje ukaznega poziva, generiranje ocen podobnosti na podlagi verjetnosti žetonov in večinsko glasovanje. Rezultati na testni množici 2500 primerov so s točnostjo 90% in F1 vrednostjo 78% boljši od namenskih modelov za ocenjevanje semantične podobnosti stavkov, vendar zaostajajo za prilagojenimi različicami modela BERT. Prednost našega pristopa je sposobnost generiranja razlag za klasificirane primere.

Ključne besede

veliki jezikovni modeli;zavajanje;izkrivljena predstavitev;podobnost stavkov;raziskovalna poročila;izvidi;medicina;diplomske naloge;

Podatki

Jezik:	Slovenski jezik
Leto izida:	2025
Tipologija:	2.11 - Diplomsko delo
Organizacija:	UL FRI - Fakulteta za računalništvo in informatiko
Založnik:	[T. Ajdovec]
UDK:	004.85:81'322:61(043.2)
COBISS:	236113411
Št. ogledov:	90
Št. prenosov:	20
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Angleški jezik
Sekundarni naslov:	Detecting spin in clinical trials with large language models
Sekundarni povzetek:	Spin in research reports includes reporting practices that distort the presentation of results. This is particularly critical in medicine, where spin is present in more than 50% of randomized controlled trials (RCT) that fail to reach the threshold of statistical significance. Comparing declared and reported outcomes is crucial for detecting various types of spin, such as selective reporting. We developed a system for automatic detection of spin in clinical trials. We used 300 pairs of outcomes, labeled with semantic similarity. We evaluated baseline statistical models, masked language models (MLM) and generative large language models (LLM). We generated similarity scores and used Youden index to determine the classification threshold. The proposed approach to comparing outcomes using LLMs involves prompt engineering, generating similarity scores based on token probabilities and majority voting. The results on the test set of 2500 examples, with 90% accuracy and F1 score of 78%, outperform dedicated models for semantic similarity evaluation, but trail behind fine-tuned versions of BERT model. An advantage of our approach is the ability to generate explanations for the classified examples.
Sekundarne ključne besede:	natural language processing;large language models;spin;distorted presentation;sentences similarity;research reports;clinical trials;medicine;computer and information science;diploma;Obdelava naravnega jezika (računalništvo);Klinične raziskave;Računalniško jezikoslovje;Računalništvo;Univerzitetna in visokošolska dela;
Vrsta dela (COBISS):	Diplomsko delo/naloga
Študijski program:	1000468
Konec prepovedi (OpenAIRE):	1970-01-01
Komentar na gradivo:	Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani:	1 spletni vir (1 datoteka PDF (58 str.))
ID:	26352421