Odkrivanje skupin s pomočjo argumentiranega strojnega učenja

magistrsko delo

Peter Šaponja (Author), Matej Guid (Mentor)

Abstract

Potrebe po izboljšanju odkrivanja skupin (angl. clustering) v podatkih dandanes vedno bolj zahtevajo možnost interakcije z domenskimi strokovnjaki, kar je vodilo do razvoja algoritmov odkrivanja skupin z omejitvami (angl. constrained clustering). Ti algoritmi uporabljajo domensko znanje v obliki pozitivnih (angl. must-link) in negativnih omejitev (angl. cannot-link) na pare učnih primerov, kar omogoča izboljšanje procesa odkrivanja skupin. Med slabo raziskanimi problemi na tem področju pa je sama učinkovitost procesa zajemanja omejitev. Postopek zajemanja omejitev lahko pomembno vpliva na kakovost odkrivanja skupin z omejitvami, vendar je tipično zelo zahteven celo za domenske strokovnjake. V magistrskem delu smo zasnovali in razvili metodo voditeljev z argumenti (angl. Argument–based k–means, AB k-means), ki je namenjena učinkovitemu odkrivanju skupin in temelji na paradigmi argumentiranega strojnega učenja. Pri iterativni zanki za zajemanje znanja s pomočjo argumentiranega strojnega učenja domenski strokovnjak s pojasnjevanjem avtomatsko izbranih problematičnih primerov vnaša domensko znanje, metoda pa nato s pomočjo ”protiprimerov” izpostavlja morebitne pomanjkljivosti strokovnjakovih razlag in mu omogoča izboljševanje podanih argumentov. Omenjeno iterativno zanko smo prilagodili potrebam odkrivanja skupin, tako da nova metoda z izpostavljanjem slabše in bolje umeščenih primerov v skupine tekom postopka zajemanja znanja iz domenskega strokovnjaka pridobi omejitve, ki so ključne za izboljšanje rezultatov odkrivanja skupin. Hkrati pa pridobljene omejitve vodijo do oblikovanja skupin, ki so skladne s strokovnjakovim znanjem v izbrani domeni. Razvili smo tudi aplikacijo za interaktivno odkrivanje skupin s pomočjo novo razvite metode. Učinkovitost našega pristopa smo empirično ovrednotili na treh eksperimentalnih domenah s pomočjo primerjave z običajnim algoritmom za odkrivanje skupin z omejitvami in pri tem dobili spodbudne rezultate.

Keywords

delno nadzorovano učenje;odkrivanje skupin;grupiranje;metoda voditeljev;odkrivanje skupin z omejitvami;argumentirano strojno učenje;iterativna zanka za zajemanje znanja;zajemanje omejitev;metoda voditeljev z argumenti;računalništvo;računalništvo in informatika;magisteriji;

Data

Language:	Slovenian
Year of publishing:	2015
Typology:	2.09 - Master's Thesis
Organization:	UL FRI - Faculty of Computer and Information Science
Publisher:	[P. Šaponja]
UDC:	004.85(043.2)
COBISS:	1536580803
Views:	1533
Downloads:	428
Average score:	0 (0 votes)
Metadata:

Other data

Secondary language:	English
Secondary title:	Clustering with argument-based machine learning
Secondary abstract:	The need for improvement of data clustering methods demanded more interactive options with domain experts, which led to the development of algorithms, coined as constrained clustering. These algorithms use domain knowledge in the form of positive must-link and negative cannot-link constraints to improve the quality of detected groups. One of the most overlooked issues in this filed is the effectiveness of constraint elicitation. While the process of constraint elicitation can be a tedious task it can have a significant impact on the quality of clustering. In this thesis we designed and developed a method named Argument-based k-means (AB k-means), which is designed for a more efficient clustering and is based on the paradigm of argument-based machine learning (ABML). The knowledge refinement loop enables the domain expert to articulate his domain knowledge by argumenting automatically chosen problematic cases, while the method with the help of counter examples highlights any shortcomings in the expert’s arguments. We adapted the knowledge refinement loop to the needs of clustering by exposing badly and well clustered cases when eliciting constraints, which are crucial for the improvement of clustering. At the same time the obtained constraints lead to clusters that are consistent with the knowledge of the expert in their chosen domain. For an easier use of the new method we have also developed an interactive application. The effectiveness of our approach was empirically tested on three different experimental domains and compared favourably with an ordinary algorithm for constrained clustering.
Secondary keywords:	semi-supervised learning;clustering;k-means;constrained clustering;argument-based machine learning;knowledge refinement loop;constraint elicitation;argument-based k-means;computer science;computer and information science;master's degree;
File type:	application/pdf
Type (COBISS):	Master's thesis/paper
Study programme:	1000471
Embargo end date (OpenAIRE):	1970-01-01
Thesis comment:	Univ. v Ljubljani, Fak. za računalništvo in informatiko
Pages:	75 str.
ID:	9057318