Discriminative appearance models for efficient correlation-based visual object tracking

Alan Lukežič (Avtor), Matej Kristan (Mentor)

Povzetek

Visual object tracking addresses target trajectory estimation in a video sequence given a single training example in the first frame. Diverse factors such as occlusion, illumination change, fast object or camera motion, object deformation, clutter and target disappearance make visual tracking particularly challenging. In this thesis we focus on methodological framework of discriminative correlation filters (DCFs), which shows a great potential in tracking. We propose four contributions to DCF-based tracking. The first three contributions address short-term tracking of deformable and non-compact targets, which are poorly approximated by axis-aligned bounding boxes. The last contribution addresses long-term tracking in which the target disappears and remains absent for long periods before re-appearing. The first contribution explores the problem of deformable target tracking. We propose a part-based visual model that considers the target appearance at two levels of details. At coarse level, a holistic target representation is maintained by a segmentation model combined with a DCF, while a geometrically-constrained constellation of DCFs is used for detailed representation. We formulate the per-part visual similarity terms and the inter-part geometric deformation constraints within a single spring-system-based model and propose an efficient optimization to find the maximum a posteriori solution. A drawback of the part-based models is the limited amount of deformations that the model can describe. Moreover, when the target does not deform, estimation of a large number of deformation parameters from an uncertain visual data may deteriorate tracking performance. In our second contribution, we thus explore a holistic model which applies a spatial attention mechanism to identify the target pixels during training and applies channel attention to select the features most suitable for target tracking. We propose a channel and spatial reliability discriminative correlation filter (CSRDCF). An approximate spatial attention map is generated as a color-based segmentation mask and used to constrain the support of the trained DCF. We propose an efficient optimization for the mask-constrained filter learning. Channel attention, on the other hand is estimated by inspecting the per-channel localization quality during learning. The resulting tracker runs in real-time on a CPU and attains a high degree of robustness. While the target mask estimated by traditional color-based methods may be sufficient for attention mechanism in constrained DCF learning, it is not accurate enough for representing the target location. In recent years, however, deep convolutional neural networks have been shown to generate highly accurate segmentations. In the third contribution we thus revise discriminative tracking in the context of a deep neural network. We propose a single-stage segmentation tracker (D3S), whose primary output is the target segmentation mask. The network combines a deep variant of a DCF and a nonparametric appearance model to discriminatively specialize to the selected target and produce a high-fidelity segmentation mask. The network is trained on segmentation task only, generalizes to a range of targets and achieves a state-of-the-art tracking performance. In the fourth contribution we propose a new DCF-based long-term tracker. The tracker is composed of a short-term component, responsible for frame-to-frame localization, and of a detector, responsible for image-wide target re-localization after target loss. Both the short-term component and the detector are formulated as constrained DCFs and a mechanism for efficient interaction between the two models is proposed. In addition, we propose a long-term tracking performance evaluation methodology and a benchmark. The benchmark consists of a long-term tracking dataset focusing mostly on target disappearances, a taxonomy which positions trackers on short/long-term spectrum and novel long-term tracking performance measures. The methodology and the dataset have been used as a part of the largest visual object tracking challenge VOT.

Ključne besede

visual object tracking;short-term tracking;long-term tracking;discriminative correlation filters;deformable objects;computer and information science;doctoral dissertations;

Podatki

Jezik:	Angleški jezik
Leto izida:	2021
Tipologija:	2.08 - Doktorska disertacija
Organizacija:	UL FRI - Fakulteta za računalništvo in informatiko
Založnik:	[A. Lukežič]
UDK:	004.93(043.3)
COBISS:	65922051
Št. ogledov:	446
Št. prenosov:	94
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Slovenski jezik
Sekundarni naslov:	Diskriminativni modeli izgleda za učinkovito vizualno sledenje s korelacijskimi metodami
Sekundarni povzetek:	Vizualno sledenje je proces ocenjevanja položaja objekta v video posnetku, pri čemer je znan le začetni izgled objekta. Zaradi številnih faktorjev, kot so zakrivanja, spremembe osvetlitve, hitri premiki objekta ali kamere, deformacije objekta, podobnost objekta z ozadjem in izginjanje objekta iz vidnega polja kamere je vizualno sledenje zahteven problem. V disertaciji se osredotočamo na metodologijo, ki temelji na diskriminativnih korelacijskih filtrih, saj kaže velik potencial v vizualnem sledenju in predlagamo štiri prispevke k znanosti. Prvi trije prispevki naslavljajo problem kratkoročnega sledenja deformabilnih objektov, v četrtem prispevku pa naslovimo problem dolgoročnega sledenja, kjer lahko objekt izgine iz vidnega polja kamere tudi za daljše časovno obdobje. V prvem prispevku naslovimo problem sledenja deformabilnih objektov tako, da predlagamo vizualni model z deli, ki tarčo predstavi na dveh nivojih podrobnosti. Na prvem nivoju je izgled objekta predstavljen s holističnim modelom, ki kombinira segmentacijo in diskriminativni korelacijski filter. Glavna naloga prvega nivoja je približna ocena položaja objekta. Na drugem nivoju objekt predstavimo z množico diskriminativnih korelacijskih filtrov, ki natančno določijo položaj objekta. Vizualne podobnosti posameznih delov in geometrijske omejitve med deli na drugem nivoju modeliramo z enotnim sistemom vzmeti. Predlagamo tudi učinkovito optimizacijsko metodo za minimizacijo energije več-dimenzionalnega sistema vzmeti, ki jo uporabimo za oceno maksimalne aposteriorne verjetnosti stanja sistema. Vizualni modeli z deli lahko modelirajo le omejen nabor deformacij, med sledenjem pa ocenjujejo veliko število parametrov deformacije, kar se odraža v slabšem sledenju, še posebej kadar se objekt ne deformira in je vizualna informacija nezanesljiva. V drugem prispevku predlagamo holistični vizualni model, ki temelji na diskriminativnih korelacijskih filtrih in med slednjem oceni kateri slikovni elementi pripadajo objektu s pomočjo zanesljivostne mape. Mapa je ocenjena na podlagi barvne segmentacije in se uporabi kot omejitev pri učenju korelacijskega filtra. Predlagamo tudi metodo za učinkovito učenje korelacijskega filtra z omejitvami, ter metodo za ocenjevanje informativnosti kanalov med učenjem filtra. Predlagan sledilnik je sposoben delovati v realnem času na centralno procesni enoti, pri čemer dosega visoko stopnjo robustnosti. Barvna segmentacija se je izkazala kot dovolj dobra za potrebe zanesljivostne mape pri učenju korelacijskega filtra z omejitvami, ni pa dovolj natančna za predstavitev lokacije objekta. V zadnjih letih se je z napredkom globokih nevronskih mrež natančnost segmentacije precej izboljšala. V tretjem prispevku predlagamo diskriminativni segmentacijski model za vizualno sledenje, ki temelji na globokih nevronskih mrežah. Predlagan sledilnik oceni segmentacijsko masko z enim prehodom skozi nevronsko mrežo, tako da kombinira rezultat korelacijskega filtra in neparametrični vizualni model. Nevronsko mrežo učimo le za oceno segmentacije, kljub temu pa dosega rezultate, ki so primerljivi s trenutno najuspešnejšimi metodami za vizualno sledenje. Predlagana nevronska mreža kaže tudi odlično sposobnost prilagajanja na zelo širok nabor tipov objektov. V četrtem prispevku predlagamo dolgoročni sledilnik, ki temelji na diskriminativnih korelacijskih filtrih. Sledilnik je sestavljen iz kratkoročne komponente, ki skrbi za lokalizacijo tarče med zaporednimi slikami, ter detektorja, ki se uporabi za ponovno detekcijo tarče na celotni sliki in je aktiviran po izgubi tarče. Obe komponenti predstavimo z enotnim vizualnim modelom – množico diskriminativnih korelacijskih filtrov, učenih z omejitvami. Predlagamo tudi učinkovit mehanizem za preklapljanje med obema komponentama. Poleg dolgoročnega sledilnika predlagamo še metodologijo za evalvacijo dolgoročnih sledilnikov, ki obsega podatkovno zbirko, način razvrščanja dolgoročnih sledilnikov in mere uspešnosti dolgoročnega sledenja. Podatkovna zbirka se osredotoča na izginjanje objektov iz vidnega polja kamere, skupaj s celotno metodologijo pa sta uporabljeni v največjem tekmovanju vizualnih sledilnikov VOT.
Sekundarne ključne besede:	vizualno sledenje objektov;kratkoročno sledenje;dolgoročno sledenje;diskriminativni korelacijski filtri;deformabilni objekti;računalništvo;računalništvo in informatika;doktorske disertacije;
Vrsta dela (COBISS):	Doktorsko delo/naloga
Študijski program:	1000474
Komentar na gradivo:	Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani:	XIX, 208 str.
ID:	12982296