Self-supervised anomaly detection in production log streams

master's thesis

Tomaž Martinčič (Avtor), Slavko Žitnik (Mentor), Álvaro García-Faura (Komentor)

Povzetek

Log-based anomaly detection solutions are needed to effectively analyze and interpret vast amounts of generated log data, uncover hidden patterns, and predict system anomalies, enhancing operational efficiency, ensuring system security, and reducing potential downtime. In recent times, there has been development in the field of automatic anomaly detection using machine learning methods. In this work, we extended LogBERT, a well-known method in the field, into a hierarchical transformer by including a pre-trained language model to obtain semantic embeddings of log templates. We provide richer information and avoid the out-of-vocabulary problem that is faced with the original LogBERT method. We introduce a novel method called SemLogBERT. We found out that the results presented in most of the SOTA methods severely overestimate models' performance. We evaluated LogBERT and SemLogBERT in a more realistic scenario, where it improved the performance on some of the standard benchmark datasets.

Ključne besede

natural language processing;anomaly detection;production logs;machine learning;self-supervised learning;computer science;master's thesis;

Podatki

Jezik:	Angleški jezik
Leto izida:	2023
Tipologija:	2.09 - Magistrsko delo
Organizacija:	UL FRI - Fakulteta za računalništvo in informatiko
Založnik:	[T. Martinčič]
UDK:	004.85:81'322.2(043.2)
COBISS:	163944963
Št. ogledov:	10
Št. prenosov:	4
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Slovenski jezik
Sekundarni naslov:	Samonadzorovano odkrivanje anomalij v produkcijskih dnevniških zapisih
Sekundarni povzetek:	Rešitve za avtomatsko odkrivanje anomalij v sistemskih dnevniških zapisih so potrebne za učinkovito analizo in interpretacijo ogromnih količin ustvarjenih podatkov dnevnikov, odkrivanje skritih vzorcev in napovedovanje sistemskih anomalij, izboljšanje učinkovitosti delovanja, zagotavljanje varnosti sistema in zmanjšanje možnih izpadov. V zadnjem času je prišlo do razvoja na področju samodejnega odkrivanja nepravilnosti z uporabo metod strojnega učenja. V tem delu smo razširili na tem področju dobro znano metodo LogBERT v hierarhični transformator z vključitvijo prednaučenega jezikovnega modela za pridobitev semantičnih vložitev predlog dnevniških zapisov. S tem zagotavljamo bogatejše informacije in se izognemo težavam novih predlog, s katerimi se sooča izvirna metoda LogBERT. Predstavljamo novo metodo, imenovano SemLogBERT. Ugotovili smo, da rezultati, predstavljeni v večini modernih metod, močno precenjujejo njihovo učinkovitost. LogBERT in SemLogBERT smo ovrednotili v bolj realističnem scenariju, kjer smo izboljšali rezultate na nekaterih izmed standardnih primerjalnih podatkovih zbirk na tem področju.
Sekundarne ključne besede:	produkcijski dnevniški zapisi;samonadzorovano strojno učenje;magisteriji;Odkrivanje anomalij (varnost računalniških sistemov);Obdelava naravnega jezika (računalništvo);Strojno učenje;Računalništvo;Univerzitetna in visokošolska dela;
Vrsta dela (COBISS):	Magistrsko delo/naloga
Študijski program:	1000471
Konec prepovedi (OpenAIRE):	1970-01-01
Komentar na gradivo:	Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani:	VIII, 64 str.
ID:	19904930