magistrsko delo
Povzetek
Vse večji in kompleksnejši nabori podatkov, zbrani v klinični praksi, zahtevajo razvoj učinkovitih metod, namenjenih odkrivanju koristnega znanja. V delu proučimo uspešnost štirih skupin modelov naraščajočih kompleksnosti za ekstrakcijo in uporabo koristnega znanja iz elektronskih zdravstvenih kartotek. Učenje izvedemo z uporabo podatkov v obliki nestrukturiranega kliničnega teksta, z uporabo rezultata algoritma Wordification, s katerim podatke v relacijski podatkovni zbirki predstavimo v obliki dokumentov, in s hkratno uporabo obeh tipov podatkov. Modele evalviramo na nalogah napovedovanja pomembnih kliničnih dogodkov z uporabo referenčne zbirke elektronskih zdravstvenih kartotek MIMIC-III. Najprej evalviramo modele na osnovi klasifikacije agregiranih vložitev besed in dokumentov, ki služijo kot izhodišče za vrednotenje kompleksnejših modelov. Nadaljujemo z evalvacijo modela na osnovi konvolucijskih nevronskih mrež in modela na osnovi arhitekture BERT. Na koncu evalviramo ansamble najuspešnejših modelov prejšnjih skupin, ki agregirajo znanje vsebovano v kliničnem tekstu in rezultatih algoritma Wordification. Rezultati nakazujejo, da lahko z uporabo rezultatov algoritma Wordification naučimo modele, ki so konkurenčni različicam, naučenim z bolje raziskano uporabo kliničnega teksta. Ansambelske modele, ki hkrati izrabljajo oba tipa podatkov, na podlagi uporabljenih metrik ovrednotimo kot najuspešnejše.
Ključne besede
elektronske zdravstvene kartoteke;učenje predstavitve znanja;računalništvo in informatika;magisteriji;
Podatki
Jezik: |
Slovenski jezik |
Leto izida: |
2023 |
Tipologija: |
2.09 - Magistrsko delo |
Organizacija: |
UL FRI - Fakulteta za računalništvo in informatiko |
Založnik: |
[J. Vivod] |
UDK: |
004.85:614(043.2) |
COBISS: |
171891203
|
Št. ogledov: |
31 |
Št. prenosov: |
4 |
Ocena: |
0 (0 glasov) |
Metapodatki: |
|
Ostali podatki
Sekundarni jezik: |
Angleški jezik |
Sekundarni naslov: |
Representation learning for electronic health records |
Sekundarni povzetek: |
The growing size and complexity of data collected in clinical practice necessitate the development of efficient methods for discovering the knowledge they contain. We examine the performance of four groups of models of increasing complexity for extracting and utilizing useful knowledge from electronic health records. The models were trained using unstructured clinical text, the relational dataset converted into a document-like form with Wordification, and using both types of data simultaneously. We evaluate the models on the task of predicting important clinical events using the reference MIMIC-III collection of electronic health records. We start by evaluating the models based document classification and aggregated word embeddings. The results serve as the baseline for evaluating models of higher complexity. We next evaluate a model based on convolutional neural networks and a model based on the BERT architecture. Finally, we evaluate ensembles of best-performing models from the previous groups that aggregate the knowledge extracted from clinical text and results of Wordification. The results suggest that models trained using the results of Wordification can compete with models trained using the better-studied approach of utilizing clinical text. Ensemble models that simultaneously exploit both data types are the best performers based on the metrics used. |
Sekundarne ključne besede: |
artificial intelligence;machine learning;deep neural networks;representation learning;electronic health records;computer science;computer and information science;master's degree;Zdravstvene kartoteke;Strojno učenje;Umetna inteligenca;Nevronske mreže (računalništvo);Računalništvo;Univerzitetna in visokošolska dela; |
Vrsta dela (COBISS): |
Magistrsko delo/naloga |
Študijski program: |
1000471 |
Konec prepovedi (OpenAIRE): |
1970-01-01 |
Komentar na gradivo: |
Univ. v Ljubljani, Fak. za računalništvo in informatiko |
Strani: |
79 str. |
ID: |
20900277 |