master's thesis
Abstract
Log-based anomaly detection solutions are needed to effectively analyze and interpret vast amounts of generated log data, uncover hidden patterns, and predict system anomalies, enhancing operational efficiency, ensuring system security, and reducing potential downtime. In recent times, there has been development in the field of automatic anomaly detection using machine learning methods.
In this work, we extended LogBERT, a well-known method in the field, into a hierarchical transformer by including a pre-trained language model to obtain semantic embeddings of log templates. We provide richer information and avoid the out-of-vocabulary problem that is faced with the original LogBERT method. We introduce a novel method called SemLogBERT.
We found out that the results presented in most of the SOTA methods severely overestimate models' performance. We evaluated LogBERT and SemLogBERT in a more realistic scenario, where it improved the performance on some of the standard benchmark datasets.
Keywords
natural language processing;anomaly detection;production logs;machine learning;self-supervised learning;computer science;master's thesis;
Data
Language: |
English |
Year of publishing: |
2023 |
Typology: |
2.09 - Master's Thesis |
Organization: |
UL FRI - Faculty of Computer and Information Science |
Publisher: |
[T. Martinčič] |
UDC: |
004.85:81'322.2(043.2) |
COBISS: |
163944963
|
Views: |
10 |
Downloads: |
4 |
Average score: |
0 (0 votes) |
Metadata: |
|
Other data
Secondary language: |
Slovenian |
Secondary title: |
Samonadzorovano odkrivanje anomalij v produkcijskih dnevniških zapisih |
Secondary abstract: |
Rešitve za avtomatsko odkrivanje anomalij v sistemskih dnevniških zapisih so potrebne za učinkovito analizo in interpretacijo ogromnih količin ustvarjenih podatkov dnevnikov, odkrivanje skritih vzorcev in napovedovanje sistemskih anomalij, izboljšanje učinkovitosti delovanja, zagotavljanje varnosti sistema in zmanjšanje možnih izpadov. V zadnjem času je prišlo do razvoja na področju samodejnega odkrivanja nepravilnosti z uporabo metod strojnega učenja.
V tem delu smo razširili na tem področju dobro znano metodo LogBERT v hierarhični transformator z vključitvijo prednaučenega jezikovnega modela za pridobitev semantičnih vložitev predlog dnevniških zapisov. S tem zagotavljamo bogatejše informacije in se izognemo težavam novih predlog, s katerimi se sooča izvirna metoda LogBERT. Predstavljamo novo metodo, imenovano SemLogBERT.
Ugotovili smo, da rezultati, predstavljeni v večini modernih metod, močno precenjujejo njihovo učinkovitost. LogBERT in SemLogBERT smo ovrednotili v bolj realističnem scenariju, kjer smo izboljšali rezultate na nekaterih izmed standardnih primerjalnih podatkovih zbirk na tem področju. |
Secondary keywords: |
produkcijski dnevniški zapisi;samonadzorovano strojno učenje;magisteriji;Odkrivanje anomalij (varnost računalniških sistemov);Obdelava naravnega jezika (računalništvo);Strojno učenje;Računalništvo;Univerzitetna in visokošolska dela; |
Type (COBISS): |
Master's thesis/paper |
Study programme: |
1000471 |
Embargo end date (OpenAIRE): |
1970-01-01 |
Thesis comment: |
Univ. v Ljubljani, Fak. za računalništvo in informatiko |
Pages: |
VIII, 64 str. |
ID: |
19904930 |