Odkrivanje skupin s pomočjo argumentiranega strojnega učenja

magistrsko delo

Peter Šaponja (Avtor), Matej Guid (Mentor)

Povzetek

Potrebe po izboljšanju odkrivanja skupin (angl. clustering) v podatkih dandanes vedno bolj zahtevajo možnost interakcije z domenskimi strokovnjaki, kar je vodilo do razvoja algoritmov odkrivanja skupin z omejitvami (angl. constrained clustering). Ti algoritmi uporabljajo domensko znanje v obliki pozitivnih (angl. must-link) in negativnih omejitev (angl. cannot-link) na pare učnih primerov, kar omogoča izboljšanje procesa odkrivanja skupin. Med slabo raziskanimi problemi na tem področju pa je sama učinkovitost procesa zajemanja omejitev. Postopek zajemanja omejitev lahko pomembno vpliva na kakovost odkrivanja skupin z omejitvami, vendar je tipično zelo zahteven celo za domenske strokovnjake. V magistrskem delu smo zasnovali in razvili metodo voditeljev z argumenti (angl. Argument–based k–means, AB k-means), ki je namenjena učinkovitemu odkrivanju skupin in temelji na paradigmi argumentiranega strojnega učenja. Pri iterativni zanki za zajemanje znanja s pomočjo argumentiranega strojnega učenja domenski strokovnjak s pojasnjevanjem avtomatsko izbranih problematičnih primerov vnaša domensko znanje, metoda pa nato s pomočjo ”protiprimerov” izpostavlja morebitne pomanjkljivosti strokovnjakovih razlag in mu omogoča izboljševanje podanih argumentov. Omenjeno iterativno zanko smo prilagodili potrebam odkrivanja skupin, tako da nova metoda z izpostavljanjem slabše in bolje umeščenih primerov v skupine tekom postopka zajemanja znanja iz domenskega strokovnjaka pridobi omejitve, ki so ključne za izboljšanje rezultatov odkrivanja skupin. Hkrati pa pridobljene omejitve vodijo do oblikovanja skupin, ki so skladne s strokovnjakovim znanjem v izbrani domeni. Razvili smo tudi aplikacijo za interaktivno odkrivanje skupin s pomočjo novo razvite metode. Učinkovitost našega pristopa smo empirično ovrednotili na treh eksperimentalnih domenah s pomočjo primerjave z običajnim algoritmom za odkrivanje skupin z omejitvami in pri tem dobili spodbudne rezultate.

Ključne besede

delno nadzorovano učenje;odkrivanje skupin;grupiranje;metoda voditeljev;odkrivanje skupin z omejitvami;argumentirano strojno učenje;iterativna zanka za zajemanje znanja;zajemanje omejitev;metoda voditeljev z argumenti;računalništvo;računalništvo in informatika;magisteriji;

Podatki

Jezik:	Slovenski jezik
Leto izida:	2015
Tipologija:	2.09 - Magistrsko delo
Organizacija:	UL FRI - Fakulteta za računalništvo in informatiko
Založnik:	[P. Šaponja]
UDK:	004.85(043.2)
COBISS:	1536580803
Št. ogledov:	1533
Št. prenosov:	428
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Angleški jezik
Sekundarni naslov:	Clustering with argument-based machine learning
Sekundarni povzetek:	The need for improvement of data clustering methods demanded more interactive options with domain experts, which led to the development of algorithms, coined as constrained clustering. These algorithms use domain knowledge in the form of positive must-link and negative cannot-link constraints to improve the quality of detected groups. One of the most overlooked issues in this filed is the effectiveness of constraint elicitation. While the process of constraint elicitation can be a tedious task it can have a significant impact on the quality of clustering. In this thesis we designed and developed a method named Argument-based k-means (AB k-means), which is designed for a more efficient clustering and is based on the paradigm of argument-based machine learning (ABML). The knowledge refinement loop enables the domain expert to articulate his domain knowledge by argumenting automatically chosen problematic cases, while the method with the help of counter examples highlights any shortcomings in the expert’s arguments. We adapted the knowledge refinement loop to the needs of clustering by exposing badly and well clustered cases when eliciting constraints, which are crucial for the improvement of clustering. At the same time the obtained constraints lead to clusters that are consistent with the knowledge of the expert in their chosen domain. For an easier use of the new method we have also developed an interactive application. The effectiveness of our approach was empirically tested on three different experimental domains and compared favourably with an ordinary algorithm for constrained clustering.
Sekundarne ključne besede:	semi-supervised learning;clustering;k-means;constrained clustering;argument-based machine learning;knowledge refinement loop;constraint elicitation;argument-based k-means;computer science;computer and information science;master's degree;
Vrsta datoteke:	application/pdf
Vrsta dela (COBISS):	Magistrsko delo/naloga
Študijski program:	1000471
Konec prepovedi (OpenAIRE):	1970-01-01
Komentar na gradivo:	Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani:	75 str.
ID:	9057318