doctoral dissertation
Rok Mandeljc (Author), Janez Perš (Mentor)

Abstract

V disertaciji obravnavamo problem detekcije, lokalizacije in identifikacije posameznikov v omejenem opazovanem območju, s poudarkom na metodah računalniškega vida, ki temeljijo na uporabi sistemov več kalibriranih in časovno sinhroniziranih video kamer. V zadnjem času so se na tem področju uveljavili t.i. pristopi sledenja prek detekcije, ki, v primerjavi z zgodnjimi rekurzivnimi pristopi, uspešno zmanjšujejo vpliv in širjenje posameznih napak v detekciji. Po drugi strani pa tovrstni pristopi pogosto ne ugotavljajo identitet posameznikov, temveč anonimne detekcije povezujejo v trajektorije samo na osnovi razdalj med njimi. Posledično niso sposobni preprečiti zamenjav identitet, ko posamezniki pridejo blizu skupaj, niti širjenja tovrstnih napak, ko gredo zopet narazen. Osrednja tema disertacije je zato nov koncept, imenovan sledenje prek identifikacije, bistvo katerega je vključitev razpoznavanja posameznikov v samo fazo detekcije. Razpoznavanje posameznikov izvedemo s pomočjo zlivanja informacije, pridobljene s senzorjev različnih modalitet. V nadaljevanju bomo najprej podali opis ožjega znanstvenega področja s kratkim pregledom literature. Nato bomo predstavili glavni cilj disertacije, t.j. koncept sledenja prek identifikacije, ter podali prispevke k znanosti, sledil pa bo še natančnejši pregled vsebine disertacije. V zadnjih dveh desetletjih smo bili priča izrazitemu porastu zanimanja za problem detekcije, lokalizacije ter sledenja objektov na različnih raziskovalnih področjih. To zanimanje sovpada z naraščajočimi zahtevami po podatkih o položaju in identitetah objektov, izhajajočih iz širokega spektra aplikacij na področjih, kot so proizvodnja, vojska, varovanje in nadzor, transport in logistika, zdravniška oskrba, varstvo otrok, video prenosi športnih tekem, analiza uspešnosti igralcev v športu ter športna medicina. Rezultat so številne predlagane rešitve, ki temeljijo na različnih senzorskih modalitetah. Dve najpomembnejši raziskovalni področji sta detekcija in sledenje s pomočjo video kamer ter lokalizacija na osnovi radijskih tehnologij, kot pristop za premagovanje omejitev posameznih senzorskih modalitet pa se je uveljavilo zlivanje (fuzija) informacije z različnih senzorjev. Pridobitev položajev in trajektorij posameznikov, ki se nahajajo v opazovanem območju, je še posebej zanimiva za aplikacije s področja varovanja in nadzora ter v športni znanosti. V kontekstu varovanja in nadzora nam poznavanje položaja in identitet posameznikov omogoča ne samo ugotavljanje njihove prisotnosti oziroma odsotnosti, temveč tudi analizo njihovega obnašanja in anomalij v njem, ter rekonstrukcijo dogodkov. Podobno pridobitev trajektorij igralcev v športu omogoča konsistentno analizo igre z različnih vidikov, kot so gibanje posameznega igralca ali celotne ekipe, fiziološka zahtevnost in intenzivnost igre, ocena uspešnosti izvedbe posameznih akcij in skupinske strategije, itd. Raziskovalci s Fakultete za šport Univerze v Ljubljani že vrsto let uporabljajo program za sledenje, ki je bil razvit v Laboratoriju za strojni vid na Fakulteti za elektrotehniko Univerze v Ljubljani; prek pridobljenih trajektorij so analizirali gibanje posameznikov in ekip v različnih športih, kot so košarka, squash, tenis ter ples. Zgoraj omenjene aplikacije so v veliki meri odvisne od kvalitete pridobljenih podatkov o položajih posameznikov, in zato predstavljajo izrazito potrebo po robustnem, brezkontaktnem ter po možnosti povsem avtomatskim sistemom za detekcijo, lokalizacijo in identifikacijo oseb. Slednjega potem lahko obravnavamo kot objektivno merilno napravo za merjenje položajev oseb v prostoru. Iz kratkega pregleda tehnik sledenja, ki so v uporabi v športu, je razvidno, da v glavnem prevladujejo pristopi, ki uporabljajo radijsko tehnologijo, ter pristopi, ki temeljijo na uporabi video kamer in metod računalniškega vida. Obe senzorski modaliteti imata svoje prednosti in slabosti, ki so pogosto komplementarne. Poglavitna slabost metod lokalizacije s pomočjo radijskih tehnologij je njihova vsiljivost; sistem sestavlja mreža radijskih sprejemnikov (senzorjev), ki so nameščeni v prostoru, ter radijskih oddajnih značk, ki jih morajo posamezniki nositi s seboj. Čeprav je nošenje radijskih značk nadležno, v nekaterih okoljih ne predstavlja večjega problema — na primer v visoko varovanih okoljih, kjer morajo posamezniki tako ali tako nositi identifikacijske značke. Po drugi strani pa je uporaba vsiljivih sistemov manj primerna za šport ali celo prepovedana, saj lahko značke ovirajo gibanje igralcev oziroma v primeru telesnega stika med njimi celo povzročijo poškodbe. Poleg tega je frekvenca osveževanja položajev značk omejena zaradi narave radijske tehnologije in zaradi preprečevanja motenj med značkami pada z naraščanjem števila značk v prostoru. Uporaba video kamer in metod računalniškega vida nam omogoča detekcijo in sledenje oseb brez vnosa dodatnih oznak ali značk. Tudi hitrost osveževanja podatkov je višja, zlasti če podatke lahko obdelamo naknadno; v tem primeru je časovna resolucija podatkov omejena samo s frekvenco zajemanja posnetkov. Po drugi strani pa kompleksna okolja ter znatno zakrivanje med posamezniki hitro privedejo do nepopravljivih napak v detekciji in lokalizaciji. Poleg tega imajo metode računalniškega vida pogosto težave pri vzdrževanju identitet posameznikov, zlasti pri sledenju skozi daljša časovna obdobja. Večina uspešnih razvitih pristopov namreč temelji na povezovanju detekcij samo na osnovi razdalj med slednjimi, brez kakršnegakoli preverjanja njihovih identitet, kar zlahka privede do zamenjav identitet, ko posamezniki pridejo blizu skupaj, in širjenja nastalih napak, ko gredo zopet narazen. Tudi ugotavljanje in vzdrževanje identitet na osnovi vizualnih značilnic je lahko težavno, zlasti v uniformiranih okoljih, kjer so si posamezniki med seboj podobni po izgledu. Tudi prej omenjeni program za sledenje je kvečjemu pol-avtomatski, saj potrebuje stalen nadzor s strani operaterja, ki spremlja njegovo delovanje in sproti popravlja nastale napake. Posledično problem robustne detekcije, lokalizacije in sledenja s pomočjo video kamer ostaja nerešen, in kot tak predstavlja aktivno raziskovalno področje; zlasti ker, zaradi svoje nevsiljive narave, predstavlja zelo privlačno izbiro tako za video-nadzorne in varnostne aplikacije, kot tudi za uporabo na področju športa.

Keywords

računalniški vid;detekcija;lokalizacija in identifikacija oseb;sledenje več oseb z več kamerami;sledenje prek identifikacije;radijska tehnologija ultra-širokega spektra;zlivanje senzorjev;zemljevidi značilnic;metodologija za vrednotenje;

Data

Language: English
Year of publishing:
Typology: 2.08 - Doctoral Dissertation
Organization: UL FE - Faculty of Electrical Engineering
Publisher: [R. Mandeljc]
UDC: 004.8:004.93(043.3)
COBISS: 10998868 Link will open in a new window
Views: 2099
Downloads: 1902
Average score: 0 (0 votes)
Metadata: JSON JSON-RDF JSON-LD TURTLE N-TRIPLES XML RDFA MICRODATA DC-XML DC-RDF RDF

Other data

Secondary language: Slovenian
Secondary title: MULTI-MODAL PERSON DETECTION, LOCALIZATION AND IDENTIFICATION
Secondary abstract: Over the past two decades, the problem of person detection, localization, and identification received significant attention from various research communities. This coincides with the rising demand for the information about the positions and identities of the individuals. Such demand is driven mainly by needs of surveillance and security, intelligent environments, and sports science. In surveillance, knowing the individuals’ position and identity enables us not only to determine their presence or absence, but also analyze their behavior, detect abnormalities in it, and reconstruct events. Similarly, recovery of the athletes’ trajectories provides an opportunity for consistent and objective analysis of various game parameters, such as movement of individual players and whole teams, intensity and physiological demands of the game, players’ activities, and their adherence to the predefined strategy. Various localization solutions have been proposed, based on different sensor modalities. The two most prominent research areas are detection and tracking using video cameras, and localization using radio-based technology. Due to their unobtrusive nature, the computer-vision-based multi-view multi-target detection and tracking present an especially attractive choice. The advances in this field were to a great extent fostered by proliferation of the so-called tracking-bydetection paradigm. Under this paradigm, the first step involves independent, robust detection and localization of the individuals, on frame-by-frame basis. In the second step, the obtained anonymous detections are linked into trajectories using a global optimization method. However, in the majority of the multi-view multi-tracking approaches, this linking step is done solely based on the spatiotemporal proximity of the hypothesized detections, with no long-term identity validation. This may result in the propagation of identity switches when the individuals come close and then disperse again. Such errors are unacceptable from the perspective of the end-user application, as the propagation of a single identity switch effectively renders the subsequent trajectory data invalid, both in terms of proper localization and the derived motion patterns. The preservation of identity became a popular issue only recently, with emergence of approaches that extract and incorporate the appearance information in their tracking step. In this dissertation, we propose to extend the paradigm of tracking-by-detection with the one we call tracking-by-identification. Under the proposed paradigm, the first step involves detection, localization, and identification of the individuals. Depending on the quality of the available information, this results in either fullyor semi-identified detection hypotheses, which helps preventing the propagation of identity switches. When the identity information is strong enough, it can be directly used to split the detections; each sequence of the identified detections can then be separately linked into a trajectory, even using an unmodified tracking approach that otherwise does not consider any identity information. Alternatively, the existing tracking approaches that extract and use the appearance information could be modified to use the more general identity information instead. This opens a possibility of standardizing the interface between the detection and the tracking step, while reducing the amount of information required by the tracking step, such as image data. Within the context of tracking-by-identification, the presented dissertation consists of three main scientific contributions. The first is a new methodology for evaluation of the systems’ performance, which, in contrast to the established ones, considers the tracking results from the perspective of the end-user. It therefore discards the notion of tracking and the associated error types, and instead focuses on the manifestation of such errors in terms of the resulting false positives, false negatives, and localization error. This is done under several assignment strategies, which reveal different aspects of the system — detection, localization, and identification. Therefore, the proposed methodology is applicable both to systems that perform only detection and localization, as well as to those that also perform identification. In the latter case, it offers means to analyze the identity switches both in terms of their duration and the involved individuals, as well as their actual effect in terms of resulting localization error. The second contribution encompasses a novel tracking-by-identification approach, obtained by fusing a commercially-available localization solution based on the Ultra-Wideband radio technology, and a state-of-the-art computer-visionbased detection and tracking. Using the proposed evaluation methodology, we thoroughly evaluate both subsystems and obtain insights into their strengths and weaknesses when used in a realistically cluttered environment. Afterwards, we fuse the systems by combining the best of both worlds — good camera-based localization and reliable radio-based identification. The proposed fusion scheme is shown to outperform its components, both in terms of localization errors and maintaining the identity of individuals. The multi-modal dataset, used for development and evaluation of our approach, is also publicly available on our website, with the aim of sparking further interest in such multi-modal fusion. The third and the last contribution is a novel multi-modal framework for frame-by-frame person detection, localization, and identification, based on fusion of multiple weakly-discriminative cues/features. The weakly-discriminative cues, used to distinguish between the individuals, are encoded using feature maps, a proposed generalization of an occupancy map, which allows consistent aggregation and encoding of features across the views. The framework builds on two ideas; the use of multiple weak features, and the feature fusion performed by one or more trained classifiers. Experimental evaluation shows that even when the obtained identity information is not strong (i.e., a detection is assigned multiple possible identities), it still helps preventing the propagation of identity switches and improves the tracking results.
Secondary keywords: računalniški vid;identifikacija oseb;lokalizacija in identifikacija;sledenje cilju;širokopasovni radio;senzorji;značilke;disertacije;Osebe;Disertacije;Detekcija;Lokalizacija;Identifikacija;
Type (COBISS): Dissertation
Study programme: 1000319
Embargo end date (OpenAIRE): 1970-01-01
Thesis comment: Univ. v Ljubljani, Fak. za elektrotehniko
Pages: XXXIV, 145 str.
ID: 8751829