doctoral dissertation
Abstract
V disertaciji obravnavamo problem detekcije, lokalizacije in identifikacije posameznikov
v omejenem opazovanem območju, s poudarkom na metodah
računalniškega vida, ki temeljijo na uporabi sistemov več kalibriranih in časovno
sinhroniziranih video kamer. V zadnjem času so se na tem področju uveljavili
t.i. pristopi sledenja prek detekcije, ki, v primerjavi z zgodnjimi rekurzivnimi pristopi,
uspešno zmanjšujejo vpliv in širjenje posameznih napak v detekciji. Po
drugi strani pa tovrstni pristopi pogosto ne ugotavljajo identitet posameznikov,
temveč anonimne detekcije povezujejo v trajektorije samo na osnovi razdalj med
njimi. Posledično niso sposobni preprečiti zamenjav identitet, ko posamezniki
pridejo blizu skupaj, niti širjenja tovrstnih napak, ko gredo zopet narazen. Osrednja
tema disertacije je zato nov koncept, imenovan sledenje prek identifikacije,
bistvo katerega je vključitev razpoznavanja posameznikov v samo fazo detekcije.
Razpoznavanje posameznikov izvedemo s pomočjo zlivanja informacije, pridobljene
s senzorjev različnih modalitet. V nadaljevanju bomo najprej podali opis
ožjega znanstvenega področja s kratkim pregledom literature. Nato bomo predstavili
glavni cilj disertacije, t.j. koncept sledenja prek identifikacije, ter podali
prispevke k znanosti, sledil pa bo še natančnejši pregled vsebine disertacije.
V zadnjih dveh desetletjih smo bili priča izrazitemu porastu zanimanja za problem
detekcije, lokalizacije ter sledenja objektov na različnih raziskovalnih področjih.
To zanimanje sovpada z naraščajočimi zahtevami po podatkih o položaju in
identitetah objektov, izhajajočih iz širokega spektra aplikacij na področjih, kot
so proizvodnja, vojska, varovanje in nadzor, transport in logistika, zdravniška
oskrba, varstvo otrok, video prenosi športnih tekem, analiza uspešnosti igralcev
v športu ter športna medicina. Rezultat so številne predlagane rešitve, ki temeljijo na različnih senzorskih modalitetah. Dve najpomembnejši raziskovalni
področji sta detekcija in sledenje s pomočjo video kamer ter lokalizacija
na osnovi radijskih tehnologij, kot pristop za premagovanje omejitev posameznih
senzorskih modalitet pa se je uveljavilo zlivanje (fuzija) informacije z
različnih senzorjev.
Pridobitev položajev in trajektorij posameznikov, ki se nahajajo v opazovanem
območju, je še posebej zanimiva za aplikacije s področja varovanja in nadzora
ter v športni znanosti. V kontekstu varovanja in nadzora nam poznavanje
položaja in identitet posameznikov omogoča ne samo ugotavljanje njihove prisotnosti
oziroma odsotnosti, temveč tudi analizo njihovega obnašanja in anomalij
v njem, ter rekonstrukcijo dogodkov. Podobno pridobitev trajektorij igralcev
v športu omogoča konsistentno analizo igre z različnih vidikov, kot so gibanje
posameznega igralca ali celotne ekipe, fiziološka zahtevnost in intenzivnost igre,
ocena uspešnosti izvedbe posameznih akcij in skupinske strategije, itd. Raziskovalci
s Fakultete za šport Univerze v Ljubljani že vrsto let uporabljajo program
za sledenje, ki je bil razvit v Laboratoriju za strojni vid na Fakulteti za
elektrotehniko Univerze v Ljubljani; prek pridobljenih trajektorij so analizirali
gibanje posameznikov in ekip v različnih športih, kot so košarka, squash, tenis ter ples.
Zgoraj omenjene aplikacije so v veliki meri odvisne od kvalitete pridobljenih
podatkov o položajih posameznikov, in zato predstavljajo izrazito potrebo po
robustnem, brezkontaktnem ter po možnosti povsem avtomatskim sistemom za
detekcijo, lokalizacijo in identifikacijo oseb. Slednjega potem lahko obravnavamo
kot objektivno merilno napravo za merjenje položajev oseb v prostoru. Iz kratkega
pregleda tehnik sledenja, ki so v uporabi v športu, je razvidno, da v glavnem
prevladujejo pristopi, ki uporabljajo radijsko tehnologijo, ter pristopi, ki temeljijo
na uporabi video kamer in metod računalniškega vida. Obe senzorski modaliteti
imata svoje prednosti in slabosti, ki so pogosto komplementarne.
Poglavitna slabost metod lokalizacije s pomočjo radijskih tehnologij je njihova
vsiljivost; sistem sestavlja mreža radijskih sprejemnikov (senzorjev), ki so
nameščeni v prostoru, ter radijskih oddajnih značk, ki jih morajo posamezniki
nositi s seboj. Čeprav je nošenje radijskih značk nadležno, v nekaterih okoljih
ne predstavlja večjega problema — na primer v visoko varovanih okoljih, kjer
morajo posamezniki tako ali tako nositi identifikacijske značke. Po drugi strani
pa je uporaba vsiljivih sistemov manj primerna za šport ali celo prepovedana,
saj lahko značke ovirajo gibanje igralcev oziroma v primeru telesnega stika med
njimi celo povzročijo poškodbe. Poleg tega je frekvenca osveževanja položajev
značk omejena zaradi narave radijske tehnologije in zaradi preprečevanja motenj
med značkami pada z naraščanjem števila značk v prostoru. Uporaba video kamer in metod računalniškega vida nam omogoča detekcijo in sledenje oseb brez vnosa dodatnih oznak ali značk. Tudi hitrost osveževanja podatkov je višja, zlasti če podatke lahko obdelamo naknadno; v tem primeru je časovna resolucija podatkov omejena samo s frekvenco zajemanja posnetkov. Po drugi strani pa kompleksna okolja ter znatno zakrivanje med posamezniki hitro privedejo do nepopravljivih napak v detekciji in lokalizaciji. Poleg tega imajo metode računalniškega vida pogosto težave pri vzdrževanju identitet posameznikov,
zlasti pri sledenju skozi daljša časovna obdobja. Večina uspešnih razvitih pristopov namreč temelji na povezovanju detekcij samo na osnovi razdalj med slednjimi, brez kakršnegakoli preverjanja njihovih identitet, kar zlahka privede do zamenjav identitet, ko posamezniki pridejo blizu skupaj, in širjenja nastalih napak, ko gredo zopet narazen. Tudi ugotavljanje in vzdrževanje identitet na osnovi vizualnih značilnic je lahko težavno, zlasti v uniformiranih okoljih, kjer so si posamezniki med seboj podobni po izgledu. Tudi prej omenjeni program za sledenje je kvečjemu pol-avtomatski, saj potrebuje stalen nadzor s strani operaterja, ki spremlja njegovo delovanje in sproti popravlja nastale napake. Posledično problem robustne detekcije, lokalizacije in sledenja s pomočjo video kamer ostaja nerešen, in kot tak predstavlja aktivno raziskovalno področje; zlasti ker, zaradi svoje nevsiljive narave, predstavlja
zelo privlačno izbiro tako za video-nadzorne in varnostne aplikacije, kot tudi za
uporabo na področju športa.
Keywords
računalniški vid;detekcija;lokalizacija in identifikacija oseb;sledenje več oseb z več kamerami;sledenje prek identifikacije;radijska tehnologija ultra-širokega spektra;zlivanje senzorjev;zemljevidi značilnic;metodologija za vrednotenje;
Data
Language: |
English |
Year of publishing: |
2015 |
Typology: |
2.08 - Doctoral Dissertation |
Organization: |
UL FE - Faculty of Electrical Engineering |
Publisher: |
[R. Mandeljc] |
UDC: |
004.8:004.93(043.3) |
COBISS: |
10998868
|
Views: |
2099 |
Downloads: |
1902 |
Average score: |
0 (0 votes) |
Metadata: |
|
Other data
Secondary language: |
Slovenian |
Secondary title: |
MULTI-MODAL PERSON DETECTION, LOCALIZATION AND IDENTIFICATION |
Secondary abstract: |
Over the past two decades, the problem of person detection, localization, and
identification received significant attention from various research communities.
This coincides with the rising demand for the information about the positions and
identities of the individuals. Such demand is driven mainly by needs of surveillance
and security, intelligent environments, and sports science. In surveillance,
knowing the individuals’ position and identity enables us not only to determine
their presence or absence, but also analyze their behavior, detect abnormalities
in it, and reconstruct events. Similarly, recovery of the athletes’ trajectories
provides an opportunity for consistent and objective analysis of various game parameters,
such as movement of individual players and whole teams, intensity and
physiological demands of the game, players’ activities, and their adherence to the
predefined strategy.
Various localization solutions have been proposed, based on different sensor
modalities. The two most prominent research areas are detection and tracking
using video cameras, and localization using radio-based technology. Due to
their unobtrusive nature, the computer-vision-based multi-view multi-target detection
and tracking present an especially attractive choice. The advances in this
field were to a great extent fostered by proliferation of the so-called tracking-bydetection
paradigm. Under this paradigm, the first step involves independent,
robust detection and localization of the individuals, on frame-by-frame basis. In
the second step, the obtained anonymous detections are linked into trajectories
using a global optimization method. However, in the majority of the multi-view
multi-tracking approaches, this linking step is done solely based on the spatiotemporal
proximity of the hypothesized detections, with no long-term identity
validation. This may result in the propagation of identity switches when the individuals
come close and then disperse again. Such errors are unacceptable from
the perspective of the end-user application, as the propagation of a single identity
switch effectively renders the subsequent trajectory data invalid, both in terms of
proper localization and the derived motion patterns. The preservation of identity
became a popular issue only recently, with emergence of approaches that extract
and incorporate the appearance information in their tracking step.
In this dissertation, we propose to extend the paradigm of tracking-by-detection with the one we call tracking-by-identification. Under the proposed paradigm, the
first step involves detection, localization, and identification of the individuals. Depending
on the quality of the available information, this results in either fullyor
semi-identified detection hypotheses, which helps preventing the propagation
of identity switches. When the identity information is strong enough, it can be
directly used to split the detections; each sequence of the identified detections can
then be separately linked into a trajectory, even using an unmodified tracking approach
that otherwise does not consider any identity information. Alternatively,
the existing tracking approaches that extract and use the appearance information
could be modified to use the more general identity information instead. This
opens a possibility of standardizing the interface between the detection and the
tracking step, while reducing the amount of information required by the tracking
step, such as image data.
Within the context of tracking-by-identification, the presented dissertation
consists of three main scientific contributions. The first is a new methodology for
evaluation of the systems’ performance, which, in contrast to the established ones,
considers the tracking results from the perspective of the end-user. It therefore
discards the notion of tracking and the associated error types, and instead focuses
on the manifestation of such errors in terms of the resulting false positives, false
negatives, and localization error. This is done under several assignment strategies,
which reveal different aspects of the system — detection, localization, and
identification. Therefore, the proposed methodology is applicable both to systems
that perform only detection and localization, as well as to those that also
perform identification. In the latter case, it offers means to analyze the identity
switches both in terms of their duration and the involved individuals, as well as
their actual effect in terms of resulting localization error.
The second contribution encompasses a novel tracking-by-identification approach,
obtained by fusing a commercially-available localization solution based
on the Ultra-Wideband radio technology, and a state-of-the-art computer-visionbased
detection and tracking. Using the proposed evaluation methodology, we
thoroughly evaluate both subsystems and obtain insights into their strengths and
weaknesses when used in a realistically cluttered environment. Afterwards, we
fuse the systems by combining the best of both worlds — good camera-based
localization and reliable radio-based identification. The proposed fusion scheme
is shown to outperform its components, both in terms of localization errors and
maintaining the identity of individuals. The multi-modal dataset, used for development
and evaluation of our approach, is also publicly available on our website,
with the aim of sparking further interest in such multi-modal fusion.
The third and the last contribution is a novel multi-modal framework for
frame-by-frame person detection, localization, and identification, based on fusion
of multiple weakly-discriminative cues/features. The weakly-discriminative cues,
used to distinguish between the individuals, are encoded using feature maps, a
proposed generalization of an occupancy map, which allows consistent aggregation
and encoding of features across the views. The framework builds on two
ideas; the use of multiple weak features, and the feature fusion performed by one
or more trained classifiers. Experimental evaluation shows that even when the
obtained identity information is not strong (i.e., a detection is assigned multiple
possible identities), it still helps preventing the propagation of identity switches
and improves the tracking results. |
Secondary keywords: |
računalniški vid;identifikacija oseb;lokalizacija in identifikacija;sledenje cilju;širokopasovni radio;senzorji;značilke;disertacije;Osebe;Disertacije;Detekcija;Lokalizacija;Identifikacija; |
Type (COBISS): |
Dissertation |
Study programme: |
1000319 |
Embargo end date (OpenAIRE): |
1970-01-01 |
Thesis comment: |
Univ. v Ljubljani, Fak. za elektrotehniko |
Pages: |
XXXIV, 145 str. |
ID: |
8751829 |