Secondary abstract: |
Z napredkom tehnologije se vse bolj pogosto soočamo z vprašanji varnosti in zasebnosti.
Preprosto odklepanje pametnega telefona, verodostojnost identifikacijskih dokumentov, dvig denarja z bankomata in zaščita osebne identitete so le nekatera izmed področij, kjer je ključno zagotoviti verodostojne, učinkovite in predvsem varne mehanizme za istovetenje posameznikov. V ta namen se danes veliko pozornosti namenja področju biometričnega razpoznavanja oseb, ki lahko na podlagi različnih biometrični lastnosti, kot so prstni odtis, glas, obraz, oko, itd. zagotovi učinkovito računalniško podprto istovetenj posameznikov.
V pričujočem magistrskem delu se posvetimo problemom, povezanim s področjem biometrije, pri čemer se osredotočimo na postopke povezane z razpoznavanjem šarenice.
Šarenica ima relativno preprosto funkcijo. Deluje kot diafragma za zenico, kar ji omogoča krčenje ali širjenje, pri čemer nadzoruje količino svetlobe, ki vstopa v oko.
Z vidika biometrije pa je šarenica pomemben del očesa.
Šarenica je zelo bogata s podrobnostmi in teksturo in zato predstavlja bogat vir informacij za razpoznavanje oseb.
Sčasoma je bilo razvitih več algoritmov za razpoznavanje šarenice, za vse pa je ključnega pomena, da je slika očesa pravilno posneta in da je šarenica pravilno segmentirana.
Zaradi tega se raziskovalci nenehno trudijo izboljšati učinkovitost algoritmov za segmentacijo šarenice.
Obstaja veliko različnih pristopov: od zgodnjih prizadevanj z integro-diferencialnim operaterjem, Houghove transformacije in aktivnih kontur, do sodobnejših pristopov s konvolucijskimi nevronskimi omrežji.
Pri večini teh metod se uporabljajo slike posnete z bližnje infrardečimi kamerami. Bližnje infrardeče kamere lahko zajamejo le svetlobo valovne dolžine v razponu od 0.7 - 1,6 μm, kar je izven območja, ki ga zaznavajo ljudje.
Razlog za uporabo bližnje infrardečih slik za razpoznavanje šarenice je ta, da so slike, zajete v infrardečem spektru, osredotočene na teksturo šarenice in ne na pigmentacijo.
Zato se učinki okluzije, odboja in zamegljenosti bistveno zmanjšajo v primerjavi s slikami, zajetimi v vidnem spektru.
Tudi odtenek teksture temno obarvanih šarenic je bolje opaziti v bližnje infrardečem spektru.
Zaradi tega je lažje in učinkoviteje izvesti segmentacijo šarenice na bližnje infrardečih slikah kot na slikah vidnega spektra.
Vendar pa se v zadnjih letih zaradi različnih razlogov vse več pozornosti posveča segmentaciji šarenice na slikah vidnega spektra.
Prvi pomemben razlog je, da senzorji bližnje infrardečega spektra ne morejo dobro ujeti šarenice na daljavo in bi bilo zato nemogoče pridobiti informacije o šarenici neposredno iz nadzornih kamer, ki delujejo v vidnem spektru. Drugi razlog je, da slike vidnega spektra ponujajo več informacij o pigmentaciji šarenice in periokularnem območju, ki jih je mogoče uporabiti za boljše razpoznavanje, še posebej, če šarenice ni mogoče pravilno zajeti.
Zaradi zgoraj naštetih razlogov, v tem magistrskem delu predlagamo novo metodo segmentacije šarenice, ki temelji na globokem učenju in deluje na slikah, zajetih v vidnem spektru.
V okviru našega dela razvijemo nov pristop, ki uporablja večopravilno učenje za izgradnjo robustnega modela, ki je sposoben segmentirati šarenico iz sivinskih slik posnetih s kamerami vidnega spektra.
Večopravilno učenje se obravnava kot način za izboljšanje učinkovitosti enoopravilnega učenja, tako da model hkrati učimo na več podobnih nalogah. Tako lahko naloge med seboj delijo informacije, ki se lahko izkoriščajo za izboljšanje učinkovitosti vseh upoštevanih nalog.
V magistrskem delu združujemo naloge segmentacije šarenice in barvanja slike v proces večopravilnega učenja, s poudarkom na segmentaciji šarenice.
Barvanje slik je proces, v katerem moramo predvideti barvne slike iz sivinskih slik, tako da se barve čim bolj prilegajo resničnemu stanju.
V delu tako učimo nevronske modele, ki na vhodu sprejemajo enokanalne sivinske slike človeškega očesa, na izhodu pa generirajo štiri kanale, ki predstavljajo segmentacijsko masko ter barvne kanale B, G in R barvnega prostora RGB.
Da bi preverili, kakšen vpliv imajo posamezne naloge na kakovost segmentacije očesne šarenice, udejanimo tri različne modele, ki temeljijo na treh različnih kriterijih učenja.
Kot arhitekturo modelov, uporabljamo konvolucijsko nevronsko mrežo UNet. Ta arhitektura daje dobre rezultate pri nalogah segmentacije slike na različnih področjih uporabe.
Poleg tega uporabljamo arhitekturo, ki je podobna arhitekturi UNet, vendar je število konvolucijskih filtrov v vseh konvolucijskih plasteh, razen v zadnji, prepolovljeno. To arhitekturo v magistrskem delu naslavljamo z imenom UNet2. UNet2 ima bistveno manj parametrov za učenje v primerjavi z UNet arhitekturo. Cilj uporabe arhitekture UNet2 pa je preizkusiti, kako manjše število parametrov vpliva na učinkovitost in čas učenja.
Da bi primerjali večopravilne modele z enoopravilnimi modeli, naučimo še enoopravilne modele, ki za vhodno sivinsko sliko človeškega očesa, na izhodu podajajo samo segmentacijsko masko. Tudi v tem primeru uporabimo arhitekturi UNet in UNet2.
Nevronska omrežja so učena in preizkušena na podatkovnih zbirkah MOBIUS in UBIRIS.v2. Zbirka MOBIUS vsebuje 3542 slik, zbirka UBIRIS.v2 pa 2250 slik. Iz vsake zbirke se 64 % slik uporabi za učenje, 20 % za preizkušanje in 16 % za nadzor nad postopkom učenja.
Poleg izbranih 20 % slik za preizkušanje, za testiranje robustnosti modela, iz slikovne zbirke, ki ni bila uporabljena za učenje, vzamemo še dodatnih 500 naključno izbranih slik.
Teh dodatnih 500 slik uporabimo za preizkus dveh referenčnih modelov IrisParseNet, naučenih na UBIRIS.v2 in MICHE podatkovnih zbirkah. Te rezultate uporabimo za primerjavo naših modelov z modeloma IrisParseNet, ki predstavljata najsodobnejša pristopa reševanja naloge segmentacije šarenice.
Pri ocenjevanju modelov med učenjem uporabljamo natančnost in povprečni presek nad unijo (IoU) pri pragu 0.5, med preizkušanjem pa natančnost, priklic, mero F1 ter povprečni presek nad unijo (IoU).
Na podlagi rezultatov lahko zaključimo, da modeli, naučeni z večopravilnim učenjem, delujejo boljše, kot modeli naučeni z enoopravilnim učenjem.
Pokažemo tudi, da modeli pri katerih izguba naloge segmentacije šarenice najbolj prispeva k celotni izgubi modela, dosegajo boljše rezultate.
Razviti modeli se v večini primerov odrežejo bolje kot IrisParseNet, kar predstavlja vzpodbudne rezultate za nadaljnje raziskovanje.
Magistrsko delo je organizirano na naslednji način:
v prvem poglavju predstavljamo motivacijo za magistrsko nalogo, njene cilje in strukturo. V drugem poglavju pregledamo relevantna dela v zvezi z očesno biometrijo in segmentacijo šarenice, obarvanjem slike in večopravilnim učenjem. Poglavje 3 služi kot teoretični uvod v umetna nevronska omrežja, konvolucijske nevronske mreže in nekatere rešitve, ki se uporabljajo pri nalogah segmentacije slik s poudarkom na arhitekturi UNet.
V četrtem poglavju podrobno opišemo našo rešitev, od uporabljenih arhitektur, aktivacijskih funkcij, funkcij izgube itd.
V petem poglavju opišemo dva nabora slik, ki se uporabljata za učenje, potrjevanje in testiranje, predstavimo uporabljene meritve vrednotenja ter strojno in programsko opremo, ki se uporablja za učenje modelov. Na koncu predstavimo še rezultate, jih primerjamo z rezultati modelov IrisParseNet in podamo pripadajoče komentarje.
V zadnjem poglavju še enkrat na kratko povzamemo magistrsko delo in naredimo končni zaključek. Predlagamo tudi nekaj možnih prihodnjih iztočnic za prihodnje delo na tem področju. |