Deep learning on low power embedded devices using RISC-V cores with an extended instruction set

master's thesis

Jure Vreča (Author), Zmago Brezočnik (Mentor), Farhad Merchant (Co-mentor)

Abstract

This thesis explores the possibility of running neural networks on microcontrollers and how to optimize their performance using instruction set extensions. Microcontrollers are seen as too weak to run neural networks. We challenge this view and show that stripped-down neural networks can run and be useful for some applications. We used an open-source microcontroller called PULPino to run our neural network. The benefit of various instructions and optimizations for minimizing energy consumption to run deep learning algorithms was evaluated. Hardware loops, loop unrolling, and the dot-product unit were implemented and tested. We developed an FPGA-based testing system to evaluate our hardware. We also developed a deep learning library and a test neural network for our hardware. We wrote two versions of the deep learning library. One version is the reference code, and the other is the optimized code that uses the dot product unit. Using the testing system, we tested the performance of the two versions. The synthesis was run to determine the power and energy consumption. We also tried out various optimizations to see if the performance could be improved. Using instruction set extensions and algorithmic optimizations we reduced the clock cycle count by 72% for the convolutional layers and by 78% for fully-connected layers. This reduced power consumption by 73%. We compare our results with related research.

Keywords

deep learning;embedded system;instruction set;RISC-V;

Data

Language:	English
Year of publishing:	2020
Typology:	2.09 - Master's Thesis
Organization:	UM FERI - Faculty of Electrical Engineering and Computer Science
Publisher:	[J. Vreča]
UDC:	004.8.021(043.2)
COBISS:	36194051
Views:	775
Downloads:	127
Average score:	0 (0 votes)
Metadata:

Other data

Secondary language:	Slovenian
Secondary title:	Nadgradnja upravljanja elektronskih sistemov v osebnem avtomobilu
Secondary abstract:	V magistrski nalogi smo raziskovali, kako različne razširitve nabora ukazov vplivajo na učinkovitost izvajanja algoritmov globokega učenja — predvsem v kontekstu nizkoenergijskih vgrajenih naprav. Konkretno smo pogledali uporabnost inštrukcij za strojne zanke in inštrukcij za skalarni produkt. Algoritmi globokega učenja se redko uporabljajo v vgrajenih sistemih, ker so računsko in energijsko zelo zahtevni. Zatorej je bil stranski cilj magistrske naloge pokazati, da lahko algoritme globokega učenja v okrnjeni obliki kljub temu uporabljamo v nizkoenergijskih vgrajenih napravah. Za osnovo smo vzeli odprtokodni mikrokrmilnik PULPino, ki sta ga skupaj razvila ETH Zürich in Univerza v Bologni. Procesorsko jedro mikrokrmilnika PULPino se imenuje RI5CY. RI5CY je majhno jedro s cevovodom s štirimi stopnjami. Jedro je namensko zgrajeno za nizkoenergijsko paralelno računanje. Procesorsko jedro smo nato nadgradili z enoto za računanje skalarnega produkta vektorjev velikosti štiri. Vso aritmetiko smo delali v aritmetiki s plavajočo vejico. Pomembna funkcionalnost jedra RI5CY je funkcija strojne zanke. Ta funkcija nam je omogocala učinkovitejše izvajanje zank z majhnim telesom — t.j. z majhnim številom ukazov v telesu zanke. Da smo lahko ocenili ucinkovitost našega sistema, smo razvili testni sistem, ki je temeljil na Zynq-7000. Zynq-7000 je družina sistemov na čipu podjetja Xilinx. Čipi Zynq-7000 imajo na istem siliciju združeno tako trdo intelektualno lastnino kot tudi programirljivo polje logičnih vrat. Del trde intelektualne lastnine je procesor ARM Cortex-A9, na katerem smo poganjali aplikacijo v Linuxu, ki je sprogramirala, nadzirala in spremljala na FPGA-ju emuliran PULPino. Aplikacija je tudi izvajala meritve in zbirala rezultate. Procesor ARM Cortex-A9 in PULPino smo povezali z vodilom AXI. Po tem vodilu smo v PULPino dostavljali vhodne podatke za nevronsko mrežo. PULPino je o koncu računanja obvestil procesor ARM Cortex-A9 s prekinitvijo. Sistem smo načrtovali v programu Vivado podjetja Xilinx. V sklopu naloge smo razvili tudi preprosto demonstracijsko konvolucijsko nevronsko mrežo, ki smo jo poganjali na naši strojni opremi. Izvajala je optično zaznavo znakov z vsega petimi sloji — dva konvolucijska sloja, dva polno-povezana sloja in izhodni sloj tipa Softmax. Nevronsko mrežo smo razvili s knjižnico TensorFlow podjetja Google. Ugotovili smo, da je dodana enota za računanje skalarnega produkta vektorjev povečala površino silicija za 172 %. Povečanje površine je več kot podvojilo statično porabo, medtem ko je dinamična poraba ostala na podobni ravni. Velikost naše knjižnice za globoko učenje se je glede na različico in izbrane optimizacije gibala med 1,2 KB in 4,5 KB. Ta velikost je sprejemljiva tudi za vgrajene sisteme, ki so praviloma zelo omejeni s pomnilnikom. Podali in analizirali smo rezultate za celotno demonstracijsko nevronsko mrežo in za različne tipe slojev posebej. Ugotovili smo, da je dodana enota za računanje skalarnega produkta bolj uspešna pri pospeševanju konvolucijskih kot polno-povezanih slojev. Glavni razlog za to je dejstvo, da so konvolucijski sloji manj pomnilniško požrešni — enoto za računanje skalarnega produkta smo lahko bolj izrabili. Konvolucijske sloje smo v najboljšem primeru izracunali z 78 % manj urinih ciklov, medtem ko smo polno-povezane sloje izracunali z 72 % manj urinih ciklov. Tako smo v povprečju zmanjšali število urinih ciklov za 73 %. Končni rezultat tega je bil, da se je energija, potrebna za izračun ene iteracije nevronske mreže, zmanjšala za 73 % v primerjavi z neoptimiziranimi različicami.
Secondary keywords:	globoko učenje;vgrajeni sistemi;nabor ukazov;magistrske naloge;
Type (COBISS):	Master's thesis/paper
Thesis comment:	Univ. v Mariboru, Fak. za elektrotehniko, računalništvo in informatiko, Elektrotehnika
Pages:	85 f.
ID:	11980604