diplomsko delo
Povzetek
V diplomskem delu predstavimo sistem Never Ending Language Learner, v nadaljevanju NELL, ki z branjem spleta gradi bazo znanja v obliki konceptov in relacij med njimi. Nekatere relacije so odvisne od časa kar pomeni, da je njihova vrednost lahko drugačna ob dveh trenutkih v času. Takšnim relacijam pravimo časovne relacije. Le-te se naprej delijo na relacije, ki se zgolj zgodijo in na relacije, ki se začnejo in končajo, oziroma časovne relacije z enim kritičnim trenutkom v času in časovne relacije z dvema kritičnima trenutkoma. Kritični trenutek je trenutek ob katerem se vrednost relacije spremeni. Sprememba je lahko začetek, ki je prehod vrednosti iz 0 v 1, konec, ki je prehod vrednosti iz 1 v 0 ali dogodek, ki vrednost spremeni iz 0 v 1 in za tem nazaj iz 1 v 0. Relacije z dvema kritičnima trenutkoma imajo začetek in konec, relacije z enim kritičnim trenutkom pa le dogodek.
Sistem NELL ima problem s prepoznavanjem kritičnih trenutkov za relacije kar pomeni, da ne ve kdaj se je neka relacija zgodila oziroma začela ali končala. Splošen problem časovnih relacij je kako pridobiti za relacijo metapodatke o tem kdaj se je zgodila, za relacije z enim kritičnim trenutkom oziroma kdaj se je začela in končala za relacije z dvema trenutkoma.
V diplomskem delu se ukvarjamo s specifičnim podproblemom problema časovnih relacij, kako najti besedila, ki vsebujejo informacije o kritičnih trenutkih. Predstavimo sistem EventRegistry, ki nabira časopisne članke iz različnih virov in jih grupira v dogodke, ki jih ponuja kot podatke, ki opisujejo karkoli značilnega kar se je zgodilo. Nekateri od teh dogodkov vsebujejo informacije o kritičnih trenutkih.
Predlagamo splošen sistem za odkrivanje dogodkov, ki vsebujejo informacijo o kritičnih trenutkih za relacije z dvema. Sistem deluje na podlagi klasifikacijskih algoritmov, ki z uvrščanjem ločijo dogodke z informacijo o kritičnih trenutkih od drugih. Ker klasifikacijski algoritmi zahtevajo označene podatke, označevanje podatkov pa je izjemno drago in zamudno delo, predlagan sistem nadgradimo še s strategijami aktivnega učenja, ki poskušajo zmanjšati ceno označevanja podatkov. Razvit sistem simuliramo in analiziramo na primeru časovne relacije ImaZakonca(x,y) in poročamo o njegovi uspešnosti. Za konkretno relacijo se izkaže, da je problem dobro rešljiv, saj v klasifikaciji dosežemo AUC blizu 0.90.
Ker podatke označimo tako, da z njimi na enostaven način lahko odkrijemo tudi tip kritičnega trenutka v času, ki ga dogodek vsebuje, predstavimo rezultate tudi za ta podproblem, na primeru konkretne relacije ImaZakonca(x,y). Tudi za ta podproblem se izkaže, da je s klasifikacijo dobro rešljiv, saj prav tako dosežemo AUC blizu 0.90.
Ključne besede
strojno učenje;odkrivanje znanj v besedilih;aktivno učenje;podatkovno rudarjenje;računalništvo;računalništvo in informatika;univerzitetni študij;diplomske naloge;
Podatki
Jezik: |
Slovenski jezik |
Leto izida: |
2015 |
Tipologija: |
2.11 - Diplomsko delo |
Organizacija: |
UL FRI - Fakulteta za računalništvo in informatiko |
Založnik: |
[K. Mirčeta] |
UDK: |
004.85:070.431(043.2) |
COBISS: |
1536520899
|
Št. ogledov: |
1717 |
Št. prenosov: |
386 |
Ocena: |
0 (0 glasov) |
Metapodatki: |
|
Ostali podatki
Sekundarni jezik: |
Angleški jezik |
Sekundarni naslov: |
Extracting temporal knowledge from events in news articles |
Sekundarni povzetek: |
In this thesis we describe the system Never Ending Language Learner referred to as NELL that builds a knowledge base in the form of concepts connected by relations, by reading the web. Some relations are dependent on time, which means that their value may be different at two moments in time. We call them temporal relations. These are further divided into relations that happen and relations that start and end or equivalently, relations with one critical moment in time and relations with two critical moments. A critical moment is a moment at which the value of the relation changes. The change may be the beginning, which is the transition from 0 to 1, the ending, which is the transition from 1 to 0, or the event, which changes the value of the relation from 0 to 1 and then quickly back from 1 to 0. Relations with two critical moments in time have a beginning and an end, whereas relations with one such moment only have a happening.
The system NELL has a problem with the recognition of such critical moments for relations, which means that it doesn't know when some relation began or ended, or in the case of relations with one critical moment, happened. The general problem of temporal relations asks how to get metadata for a relation, about when it happened for relations with one critical moment in time, and when it began and ended for the relations with two.
In the thesis we address the specific subproblem of the problem of temporal relations that asks how to find text that contains information about critical moments. We describe the system EventRegistry, which collects news paper articles from various sources and groups them into events, which are represented as data about various significant happenings. Some of these events contain information about critical moments in time.
We propose a general system for detecting events, which contain information about critical moments for relations with two of them. The system is based on classification algorithms, which, by classification, separate the events that contain information about critical moments from the others. Because classification algorithms demand labeled data, and labeling is extremely costly and slow, we improve the proposed system with active learning strategies, which try to reduce the cost of labeling data. We simulate and analyze the proposed system for the case of the relation HasSpouse(x,y) and report the success of it's performance. For this concrete relation it turns out that the problem is very solvable, as we report AUC near 0.90 for the classification.
Because the data is labeled in a way that allows us to also detect the type of critical moment contained in the event in a simple way, we present the results for this subproblem as well, for the concrete relation HasSpouse(x,y). This problem also turns out to be highly solvable by classification, as we also achieve AUC near 0.90. |
Sekundarne ključne besede: |
machine learning;text mining;active learning;data mining;computer science;computer and information science;diploma; |
Vrsta datoteke: |
application/pdf |
Vrsta dela (COBISS): |
Diplomsko delo/naloga |
Študijski program: |
1000468 |
Konec prepovedi (OpenAIRE): |
1970-01-01 |
Komentar na gradivo: |
Univ. v Ljubljani, Fak. za računalništvo in informatiko |
Strani: |
75 str. |
ID: |
8966478 |