ǂa ǂdissertation
Jure Žbontar (Avtor), Yann LeCun (Mentor), Janez Demšar (Komentor)

Povzetek

V pričujoči doktorski disertaciji predstavimo metodo za izračun cene ujemanja za problem stereo vida. Stereo podatkovne množice, na primer KITTI in Middlebury, so v zadnjih nekaj letih postale dovolj velike, da se lahko problema lotimo z metodami, ki temeljijo na učenju. Naš pristop temelji na uporabi globoke konvolucijske nevronske mreže in algoritma za nadzorovano strojno učenje. Učno množico zgradimo iz javno dostopnih stereo podatkovnih množic. Učni primer sestoji iz para slikovnih zaplat in pripada enemu izmed dveh razredov: pozitivnemu, ko sta slikovni zaplati v korespondenci in negativnemu, ko nista. Predstavljeni sta dve arhitekturi konvolucijskih nevronskih mrež za učenje podobnosti. Prva arhitektura je hitrejša od druge, vendar je izračunana globinska slika v povprečju manj natančna. V obeh primerih je vhod v nevronsko mrežo par slikovnih zaplat, izhod pa mera podobnosti med njima. Obe arhitekturi vsebujeta konvolucijski nevronski mreži, ki slikovni zaplati predstavita z vektorjem značilk. Podobnost med slikovnima zaplatama je izračunana na vektorju značilk, namesto na svetlostih posameznih slikovnih elementov. Prva arhitektura vektorja značilk primerja s kosinusno podobnostjo, medtem ko druga arhitektura vektorja primerja z naučeno večnivojsko nevronsko mrežo. Razvito metodo primerjamo z uveljavljenimi metodami na treh podatkovnih množicah -- KITTI 2012, KITTI 2015 in Middlebury -- in ugotovimo, da je naša metoda najnatančnejša na vse treh podatkovnih množicah.

Ključne besede

stereo;matching cost;similarity learning;supervised learning;convolutional neural networks;computer and information science;doctoral dissertations;

Podatki

Jezik: Angleški jezik
Leto izida:
Tipologija: 2.08 - Doktorska disertacija
Organizacija: UL FRI - Fakulteta za računalništvo in informatiko
Založnik: [J. Žbontar]
UDK: 004.032.26(043.3)
COBISS: 1537065923 Povezava se bo odprla v novem oknu
Št. ogledov: 1948
Št. prenosov: 985
Ocena: 0 (0 glasov)
Metapodatki: JSON JSON-RDF JSON-LD TURTLE N-TRIPLES XML RDFA MICRODATA DC-XML DC-RDF RDF

Ostali podatki

Sekundarni jezik: Slovenski jezik
Sekundarni naslov: Training deep neural networks for stereo vision
Sekundarni povzetek: We present a method for extracting depth information from a rectified image pair. Our approach focuses on the first stage of many stereo algorithms: the matching cost computation. We approach the problem by learning a similarity measure on small image patches using a convolutional neural network. Training is carried out in a supervised manner by constructing a binary classification data set with examples of similar and dissimilar pairs of patches. We examine two network architectures for learning a similarity measure on image patches. The first architecture is faster than the second, but produces disparity maps that are slightly less accurate. In both cases, the input to the network is a pair of small image patches and the output is a measure of similarity between them. Both architectures contain a trainable feature extractor that represents each image patch with a feature vector. The similarity between patches is measured on the feature vectors instead of the raw image intensity values. The fast architecture uses a fixed similarity measure to compare the two feature vectors, while the accurate architecture attempts to learn a good similarity measure on feature vectors. The output of the convolutional neural network is used to initialize the stereo matching cost. A series of post-processing steps follow: cross-based cost aggregation, semiglobal matching, a left-right consistency check, subpixel enhancement, a median filter, and a bilateral filter. We evaluate our method on the KITTI 2012, KITTI 2015, and Middlebury stereo data sets and show that it outperforms other approaches on all three data sets.
Sekundarne ključne besede: stereo;cena ujemanja;učenje podobnosti;nadzorovano učenje;konvolucijska nevronska mreža;računalništvo in informatika;doktorske disertacije;Nevronske mreže;Disertacije;Učenje;Stereo vid;
Vrsta datoteke: application/pdf
Vrsta dela (COBISS): Doktorska disertacija
Študijski program: 1000478
Konec prepovedi (OpenAIRE): 1970-01-01
Komentar na gradivo: Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani: IX, 127 str.
ID: 9159004