Analysis of methods for few-shot semantic segmentation

master's thesis

Marko Rus (Author), Matej Kristan (Mentor)

Abstract

Few-shot semantic segmentation, which aims at learning new categories from only a few training examples, has progressed substantially in the last decade. The progress was in part driven by datasets derived from the existing datasets for semantic segmentation. However, these datasets have several drawbacks in the context of the few-shot performance evaluation. PASCAL-5 has a low number of classes and objects well separated from the background, COCO-20 has too diverse classes, and FSS-1000 contains objects that are trivial to segment so that our Zero-Shot Segmentation Baseline (ZSSB) model achieves a high mean mIoU of 81.1%. Therefore we construct a new dataset LVIS-1025 from the general semantic segmentation dataset LVIS by applying new criteria for measuring object predictability and expressiveness. We evaluate three state-of-the-art methods (PANet, PPNet, and ASGNet) on this dataset and show that the ranks change compared to those obtained on existing public datasets. ASGNet on the standard datasets outperforms PANet and PPNet by a large margin, but on LVIS-1025 performs worse, indicating that ASGNet is prone to segmenting the most salient object in the image. We believe that future models developed on LVIS-1025 will have better generalization capabilities and will not that heavily rely on the always-present assumption.

Keywords

computer vision;deep learning;convolutional neural networks;semantic segmentation;few-shot learning;evaluation protocol;computer science;computer and information science;master's thesis;

Data

Language:	English
Year of publishing:	2021
Typology:	2.09 - Master's Thesis
Organization:	UL FRI - Faculty of Computer and Information Science
Publisher:	[M. Rus]
UDC:	004.93(043.2)
COBISS:	75943171
Views:	370
Downloads:	79
Average score:	0 (0 votes)
Metadata:

Other data

Secondary language:	Slovenian
Secondary title:	Analiza metod za semantično segmentacijo z malo učnimi primeri
Secondary abstract:	Semantična segmentacija z malo učnimi primeri, katere cilj je naučiti se novih kategorij z le nekaj učnimi primeri, je v zadnjem desetletju močno napredovala. Napredek so deloma začrtale podatkovne množice, ki izhajajo iz obstoječih podatkovnih množic za semantično segmentacijo. Te podatkovne množice imajo v okviru evalvacije z malo učnimi primeri več pomanjkljivosti, PASCAL-5 ima majhno število razredov in nekatere predmete dobro ločene od ozadja, COCO-20 ima preveč raznolike razrede, FSS-1000 pa vsebuje predmete, ki jih je trivialno segmentirati, tako da naš model ZSSB, ki ne uporablja učne slike, doseže visok povprečni mIoU 81,1%. Zaradi teh pomanjkljivosti zgradimo novo podatkovno množico LVIS-1025, ki jo dobimo iz podatkovne množice LVIS z uporabo novih meril za merjenje predvidljivosti in izraznosti objektov. Na LVIS-1025 evalviramo tri najsodobnejše metode (PANet, PPNet in ASGNet) in pokažemo, da se vrstni red uspešnosti spremeni v primerjavi s pridobljenim na obstoječih podatkovnih množicah. ASGNet na standardnih podatkovnih množicah močno preseže PANet in PPNet, vendar je na LVIS-1025 slabši, kar nakazuje, da je ASGNet nagnjen k segmentiranju najbolj izraznega objekta na sliki. Verjamemo, da bodo prihodnji modeli razviti na LVIS-1025 zmožni boljšega posploševanja in se ne bodo tako močno opirali na predpostavko, da je ciljni predmet vedno prisoten na sliki.
Secondary keywords:	globoko učenje;konvolucijske nevronske mreže;semantična segmentacija;učenje z malo učnimi primeri;evalvacijski protokol;računalništvo in informatika;magisteriji;Računalništvo;Računalniški vid;Univerzitetna in visokošolska dela;
Type (COBISS):	Master's thesis/paper
Study programme:	1000471
Embargo end date (OpenAIRE):	1970-01-01
Thesis comment:	Univ. v Ljubljani, Fak. za računalništvo in informatiko
Pages:	X, 45 str.
ID:	13328273