Adaptation of computer vision algorithms to human environment perception

doctoral dissertation

Gregor Koporec (Avtor), Janez Perš (Mentor)

Povzetek

Namen doktorske disertacije je raziskati in prilagoditi algoritme računalniškega vida človeškemu zaznavanju okolja, da bi lahko pravilno ovrednotili algoritme v primerjavi s človekovim zaznavanjem in izboljšali njihovo delovanje. V tem delu zato predstavljamo metodologijo prilagajanja izhodnih rezultatov predhodno naučenega algoritma ciljni populaciji ali prilagajanja algoritmov, da iz ciljne populacije sklepajo na pravilno, uporabniku prijazno kategorizacijo. Rezultati eksperimentov na dobro znanih naborih podatkov so pokazali, da je ciljni populaciji ljubša transformirana kategorizacija, da je uspešnost človeških opazovalcev verjetno boljša od algoritmov, in da je rezultat preusmerjanja na ciljno populacijo težko napovedati brez dejanskih populacijskih testov. Metode globokega učenja imajo še vedno težave z delno zakritimi objekti, saj je njihova zmožnost posploševanja slaba na podatkih, katerih značilnosti so različne od značilnosti učnih podatkov. V tem delu smo zato predlagali na človeka osredotočen globok kompozicionalni model (angl. Human-Centered Deep Compositional model), ki združuje zmožnost konvolucijske nevronske mreže, da vizualno razločuje med predmeti na nižjem nivoju, in zmožnost hierarhičnega kompozicionalnega modela (angl. Hierarchical Compositional Model), da sklepa na visoki ravni. Opredeljen je kot pregleden model in ga lahko optimiziramo na stvarna okolja z dodajanjem strnjenega kodiranega področnega znanja iz človeških študij in fizikalnih zakonov. Eksperimentalni rezultati na novi podatkovni množici FridgeNet in mešanici javno dostopnih naborov podatkov kažejo, da je predlagani model razložljiv, ima večjo moč vizualnega razločevanja med predmeti (diskriminabilnost) in posploševanja preko učnih vzorcev (generalizabilnost) ter bolje deluje v okolju z zakritimi predmeti kot Mask-RCNN. V doktorski disertaciji sta predstavljena naslednja dva izvirna prispevka k znanosti, ki prispevata na področju elektrotehnike: (i) Metodologija za gradnjo slikovnih zbirk in vrednotenje algoritmov računalniškega vida z upoštevanjem ciljne populacije; (ii) Nov globok kompozicionalni model za samodejno detekcijo objektov v vizualnih podatkih, zajetih v nestrukturiranih okoljih.

Ključne besede

kognitivna relevanca;globoko učenje;konvolucijske nevronske mreže;ciljna populacija uporabnikov;množičenje;kategorizacija;hierarhični kompozicionalni model;segmentacija primerkov;obvladovanje zakrivanja;razločnost;sposobnost posploševanja;razložljivost;področno znanje;zlivanje segmentacij;doktorati;

Podatki

Jezik:	Angleški jezik
Leto izida:	2023
Tipologija:	2.08 - Doktorska disertacija
Organizacija:	UL FE - Fakulteta za elektrotehniko
Založnik:	[G. Koporec]
UDK:	004.8(043.2)
COBISS:	140374275
Št. ogledov:	25
Št. prenosov:	8
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Angleški jezik
Sekundarni naslov:	ADAPTATION OF COMPUTER VISION ALGORITHMS TO HUMAN ENVIRONMENT PERCEPTION
Sekundarni povzetek:	The aim of this thesis is to explore and adapt computer vision algorithms to human environment perception in order to properly evaluate the algorithms in resemblance to human reasoning and improve their performance. The thesis presents a complete methodology for either adapting the output of a pre-trained object classification algorithm to the target-user population or inferring a proper, user-friendly categorization from the target-user population. The results of the experiments on the well-known datasets have shown that the target-user population preferred such a transformed categorization by a large margin, that the performance of human observers is probably better than previously thought, and that the outcome of re-targeting may be difficult to predict without actual tests on the target-user population. Despite their powerful discriminative abilities, discriminatively trained Convolutional Neural Networks (CNNs) lack the properties of generative models. This leads to a decreased performance in human environments where objects are poorly visible. This work proposes the Human-Centered Deep Compositional (HCDC) model that combines low-level visual discrimination of a CNN and the high-level reasoning of the Hierarchical Compositional Model (HCM). Defined as a transparent model, it can be optimized to real-world environments by adding compactly encoded domain knowledge from human studies and physical laws. The experimental results on new FridgeNet datasets and a mixture of publicly available datasets show the proposed model is explainable, has higher discriminative and generative power, and better handles the occlusion than Mask-RCNN in instance segmentation tasks. This thesis makes the following scientific contributions to the area of object recognition and detection tasks: (i) Methodology for building image datasets and evaluating computer vision algorithms with consideration of the target-user population; (ii) A novel deep compositional model for automatic object detection in visual data captured in unstructured environments.
Sekundarne ključne besede:	cognitive relevance;deep learning;Convolutional Neural Networks;crowd-sourcing;target-user population;categorization;Hierarchical Compositional Model;instance segmentation;occlusion handling;discriminability;generalizability;interpretability;domain knowledge;segmentation fusion;
Vrsta dela (COBISS):	Doktorsko delo/naloga
Študijski program:	1000319
Konec prepovedi (OpenAIRE):	1970-01-01
Komentar na gradivo:	Univ. v Ljubljani, Fak. za elektrotehniko
Strani:	XLIX, 173, 26 str.
ID:	17890478