Sekundarni povzetek: |
V magistrski nalogi smo raziskovali, kako različne razširitve nabora ukazov vplivajo na
učinkovitost izvajanja algoritmov globokega učenja — predvsem v kontekstu nizkoenergijskih
vgrajenih naprav. Konkretno smo pogledali uporabnost inštrukcij za strojne zanke in inštrukcij
za skalarni produkt.
Algoritmi globokega učenja se redko uporabljajo v vgrajenih sistemih, ker so
računsko in energijsko zelo zahtevni. Zatorej je bil stranski cilj magistrske naloge pokazati, da
lahko algoritme globokega učenja v okrnjeni obliki kljub temu uporabljamo v nizkoenergijskih
vgrajenih napravah.
Za osnovo smo vzeli odprtokodni mikrokrmilnik PULPino, ki sta ga skupaj razvila ETH
Zürich in Univerza v Bologni. Procesorsko jedro mikrokrmilnika PULPino se imenuje RI5CY.
RI5CY je majhno jedro s cevovodom s štirimi stopnjami. Jedro je namensko zgrajeno
za nizkoenergijsko paralelno računanje. Procesorsko jedro smo nato nadgradili z enoto za
računanje skalarnega produkta vektorjev velikosti štiri. Vso aritmetiko smo delali v aritmetiki s
plavajočo vejico. Pomembna funkcionalnost jedra RI5CY je funkcija strojne zanke. Ta funkcija
nam je omogocala učinkovitejše izvajanje zank z majhnim telesom — t.j. z majhnim številom
ukazov v telesu zanke.
Da smo lahko ocenili ucinkovitost našega sistema, smo razvili testni sistem, ki je temeljil na
Zynq-7000. Zynq-7000 je družina sistemov na čipu podjetja Xilinx. Čipi Zynq-7000 imajo na
istem siliciju združeno tako trdo intelektualno lastnino kot tudi programirljivo polje logičnih
vrat. Del trde intelektualne lastnine je procesor ARM Cortex-A9, na katerem smo poganjali
aplikacijo v Linuxu, ki je sprogramirala, nadzirala in spremljala na FPGA-ju emuliran
PULPino. Aplikacija je tudi izvajala meritve in zbirala rezultate. Procesor ARM Cortex-A9
in PULPino smo povezali z vodilom AXI. Po tem vodilu smo v PULPino dostavljali vhodne
podatke za nevronsko mrežo. PULPino je o koncu računanja obvestil procesor ARM Cortex-A9
s prekinitvijo. Sistem smo načrtovali v programu Vivado podjetja Xilinx.
V sklopu naloge smo razvili tudi preprosto demonstracijsko konvolucijsko nevronsko mrežo, ki
smo jo poganjali na naši strojni opremi. Izvajala je optično zaznavo znakov z vsega petimi sloji
— dva konvolucijska sloja, dva polno-povezana sloja in izhodni sloj tipa Softmax. Nevronsko
mrežo smo razvili s knjižnico TensorFlow podjetja Google.
Ugotovili smo, da je dodana enota za računanje skalarnega produkta vektorjev povečala
površino silicija za 172 %. Povečanje površine je več kot podvojilo statično porabo, medtem
ko je dinamična poraba ostala na podobni ravni. Velikost naše knjižnice za globoko učenje
se je glede na različico in izbrane optimizacije gibala med 1,2 KB in 4,5 KB. Ta velikost je
sprejemljiva tudi za vgrajene sisteme, ki so praviloma zelo omejeni s pomnilnikom. Podali in
analizirali smo rezultate za celotno demonstracijsko nevronsko mrežo in za različne tipe slojev
posebej. Ugotovili smo, da je dodana enota za računanje skalarnega produkta bolj uspešna
pri pospeševanju konvolucijskih kot polno-povezanih slojev. Glavni razlog za to je dejstvo, da
so konvolucijski sloji manj pomnilniško požrešni — enoto za računanje skalarnega produkta
smo lahko bolj izrabili. Konvolucijske sloje smo v najboljšem primeru izracunali z 78 % manj
urinih ciklov, medtem ko smo polno-povezane sloje izracunali z 72 % manj urinih ciklov. Tako
smo v povprečju zmanjšali število urinih ciklov za 73 %. Končni rezultat tega je bil, da se je
energija, potrebna za izračun ene iteracije nevronske mreže, zmanjšala za 73 % v primerjavi z
neoptimiziranimi različicami. |