magistrsko delo
Povzetek
V raziskavah in iskanju novih zdravil nam danes pomagajo računalniške tehnologije. Že ustvarjene podatkovne zbirke so na primer lahko uporabljene za klasifikacijo kemijskih struktur. V nalogi nas je zanimala kvaliteta vektorskih vložitev kemijskih struktur z avtokodirnikom pri problemih klasifikacije, kjer bi jih lahko uporabljali kot alternativo že uveljavljenim prstnim odtisom. Arhitektura avtokodirnika sledi trendom raziskav, kjer so uporabljene konvolucijske plasti in rekurenčne enote z vrati. Samo kvaliteto vložitev smo ocenjevali na realnih podatkovnih zbirkah aktualnih učinkovin. Raziskave so pokazale, da so vektorske vložitve primerljive z že razvitimi prstnimi odtisi. Na nekaterih primerih nudi vektorske predstavitve učinkovin, ki izboljšajo točnost uporabljenih tehnik strojnega učenja. Razvili smo tudi gradnik za odprto-kodno programsko opremo Orange, ki omogoča vektorsko vložitev kemijskih struktur v notaciji SMILES tako z metodo razvito v nalogi, kot tudi z ostalimi prstnimi odtisi uporabljenimi v nalogi.
Ključne besede
vektorske vložitve;samokodirnik;klasifikacija;zapis SMILES;računalništvo;računalništvo in informatika;magisteriji;
Podatki
Jezik: |
Slovenski jezik |
Leto izida: |
2019 |
Tipologija: |
2.09 - Magistrsko delo |
Organizacija: |
UL FRI - Fakulteta za računalništvo in informatiko |
Založnik: |
[B. Golobič] |
UDK: |
004:544.188(043.2) |
COBISS: |
1538418883
|
Št. ogledov: |
703 |
Št. prenosov: |
180 |
Ocena: |
0 (0 glasov) |
Metapodatki: |
|
Ostali podatki
Sekundarni jezik: |
Angleški jezik |
Sekundarni naslov: |
Vector embedding of chemical compounds |
Sekundarni povzetek: |
Recent developments in computational techniques have advanced drug discovery and design. For example, standard databases with known chemicals and their modes of actions can be considered by machine learning to classify new drugs. Here, we were interested in the vectorized presentations of the structure of small molecules, a crucial first step towards any data analytics in computational chemistry. Vectorized presentations were inferred through the construction of autoencoders. We followed the current literature trends and used a combination of convolutional and recurrent layers. Experimental results show that our model is comparable to standard chemical fingerprints, where on some of the test databases even provides for improved accuracy. We published the code to infer the embedder in open source on the GitHub repository and included the embedder within the fingerprinting widget for Orange data mining suite. |
Sekundarne ključne besede: |
vector embeddings;autoencoder;classification;SMILES notation;computer science;computer and information science;master's degree; |
Vrsta dela (COBISS): |
Magistrsko delo/naloga |
Študijski program: |
1000471 |
Konec prepovedi (OpenAIRE): |
1970-01-01 |
Komentar na gradivo: |
Univ. v Ljubljani, Fak. za računalništvo in informatiko |
Strani: |
48 str. |
ID: |
11244023 |