Motor primitives acquisition in learning by demonstration

doctoral dissertation

Rok Vuga (Author), Aleš Ude (Mentor)

Abstract

Najrazličnejši robotski mehanizmi že dolgo igrajo pomembno vlogo v industrijski proizvodnji. Sposobnosti robotskih sistemov na marsikaterem področju že danes prekašajo človeške, še posebej pri nalogah, pri katerih so potrebne ponavljajoče se in natančne operacije. Po drugi strani pa tehnološki napredek robotskih sistemov močno zaostaja za človekom pri nalogah, ki zahtevajo sprotno prilagajanje v nestrukturiranih okoljih, kot so na primer naši domovi. Posledica tega je, da je uporaba robotov za pomoč ljudem v vsakdanjem življenju trenutno zelo omejena. Ena od potencialnih rešitev, da bi roboti lahko postali bolj uporabni tudi v naravnem človekovem okolju je, da bi se roboti znali učiti na podoben način kot ljudje. V tem doktorskem delu obravnavamo dva načina robotskega učenja: učenje s posnemanjem in avtonomna adaptacija in optimizacija naučenih operacij. Pri prvem načinu robot izlušči podatke o izvedbi naloge z opazovanjem demonstratorja, ki nalogo uspešno izvede. Pri drugem načinu pa robot z večkratnim ponavljanjem izvedbe samostojno išče rešitve za izboljšanje uspešnosti. Pri učenju z demonstracijo mora robot demonstrirano nalogo zajeti in predstaviti z ustreznim modelom. Izbira tipa modela je pomembna, saj mora ta zadostiti več pomembnim zahtevam. V tem delu obravnavamo modele nalog tako na višjem, semantičnem nivoju , kot tudi na nižjem nivoju trajektorij gibanja. Razvili smo novo metodo za predstavitev manipulacijskih nalog z verjetnostnimi semantičnimi modeli. Poleg tega smo predlagali tudi razširitev obstoječe metode predstavitve gibanj z dinamičnimi generatorji gibov, ki omogoča neodvisno predstavitev poti in hitrostnega profile trajektorije. Namen opazovanja demonstrirane izvedbe neke naloge je običajno ta, da bi robot bil naposled sposoben nalogo sam izvesti. Neposredno kopiranje demonstratorjevih gibov ne pride v poštev zaradi razlik v zgradbi robotovega in demonstratorjevega telesa. Ta problem lahko obravnavamo z metodami kot je spodbujevano učenje. Trajektorije demonstratorja, ki za robota niso optimalne, lahko robot sam prilagodi s ponavljanjem in preizkušanjem različnih adaptacij naučenega vzorca. V tem delu predlagamo nove metodo za robotsko učenje, ki združuje prednosti iterativnih učečih regulatorjev (angl. ‘iterative learning control’) in spodbujevanega učenja. Razvite metode smo preizkusili na problemu učenje hitrostnih profilov trajektorij in posnemanja gibanja ob ohranjanju stabilnosti humanoidnega robota. V pričujoči doktorski nalogi smo predstavili nove algoritme za robotsko učenje s posnemanjem. Najprej smo predstavili način za predstavitev manipulacijski nalog s pomočjo modeliranja semantičnih dogodkov z diskretnimi verjetnostnimi porazdelitvami. Pokazali smo, da lahko na ta način pridobimo modele manipulacijskih nalog z dobrimi sposobnostmi razpoznavanja. Razvili smo tudi nov postopek, v katerem smo pridobljene semantične modele uporabili v kombinaciji z nižjenivojskimi modeli trajektorij za luščenje znanih elementarnih nalog iz daljših demonstracij. Predstavili smo tudi nov način za modeliranje trajektorij z dinamičnimi sistemi, pri katerih sta pot ter hitrostni profil trajektorije parametrizirana posebej. To omogoča ločeno učenje kot tudi prenašanje profilov med različnimi nalogami. Predstavljeni zapis trajektorij smo uporabili v eksperimentu, v katerem je moral robot prenesti kozarec vode kar se da hitro po vnaprej določeni poti. Obravnavali smo tudi problem učenja novih gibanj s posnemanjem, pri kateremu mora humanoidni robot ostati stabilen. Razvili smo nov sistem, pri katerem robot preslika demonstratorjevo gibanje v ničelni prostor gibanja lastnega težišča, s čimer je zagotovljena stabilna izvedba giba, podobnega demonstriranemu. Pokazali smo, da lahko z uporabo primerne kriterijske funkcije in spodbujevanega učenja tako pridobljeni začetni približek izboljšamo na način, da je robotovo gibanje še bliže demonstriranemu, ne da bi to pokvarilo njegovo stabilnost. Nazadnje smo razvili algoritem, ki predstavlja kombinacijo spodbujevanega učenja in usmerjenega raziskovanja. Ta izkorišča dodatno znanje, kot sta na primer baza rešitev podobnih primerov ali kriterijska funkcija za učeči iterativni regulator. Naš algoritem združuje hitro konvergenco učečega iterativnega regulatorja in stabilnost rešitve spodbujevanega učenja. Predlagani algoritem smo preizkusili tako v simulaciji kot tudi na realnem robotu.

Keywords

učenje s posnemanjem;robotska manipulacija;semantični dogodki;verjetnostni semantični modeli;dinamični generatorji gibov;optimizacija hitrostnih profilov;stabilnost humanoidnih robotov;spodbujevano učenje;usmerjeno raziskovanje;

Data

Language:	English
Year of publishing:	2015
Typology:	2.08 - Doctoral Dissertation
Organization:	UL FE - Faculty of Electrical Engineering
Publisher:	[R. Vuga]
UDC:	007.52(043.3)
COBISS:	11261780
Views:	1782
Downloads:	487
Average score:	0 (0 votes)
Metadata:

Other data

Secondary language:	Slovenian
Secondary title:	MOTOR PRIMITIVES ACQUISITION IN LEARNING BY DEMONSTRATION
Secondary abstract:	Introduction of robots into everyday life has proven to be very challenging. Human-like versatility and the ability to adapt to unstructured environments is still out of reach for contemporary robots. To overcome this problem, the research community took the inspiration from human learning: the robots could observe how people perform the desired tasks and later improve on their own, e.g. through practicing. In this thesis we present novel methods to facilitate learning by demonstration and autonomous improvement of learned skills. Firstly, based on an initial demonstration, the robot needs to construct appropriate models of the observed task. We propose models on both semantic as well as trajectory levels of representation. At the semantic level we show how learning of manipulation actions can be improved by taking into account object relations. We develop a probabilistic formulation that can be used to model real world data, which can contain large amounts of noise. On the other hand, for modelling actions at the trajectory level we develop an extension to the popular Dynamic Movement Primitive framework. We investigated how speed profiles of the trajectories can be parameterized in order to be able to adapt and transfer them across different tasks. In order for the robot to execute the knowledge that was extracted from demonstration, the so called correspondence problem needs to be solved. This means that the demonstrator’s motion needs to be adapted to the robot’s embodiment. In the case of humanoid robots, transfer of whole body movement from human to a humanoid robot is possible only if the balance of the humanoid robot can be preserved. We show that a mapping can be constructed based on task priority control, where motion transferred from the demonstrator does not affect the robot’s centre of gravity. This ensures stability of the motion transfer, but also affects the fidelity of reproduction. Therefore, the movement primitives obtained in this manner are further adapted with reinforcement learning, which is possible since the initial movement is stable. Finally, we deal with the issue of slow convergence of reinforcement learning algorithms. In many cases, additional information about the learning process is available, which cannot be exploited by conventional reinforcement learning. We developed a procedure which incorporates prior knowledge and iterative learning control for obtaining exploration policies in the early stages of learning. This leads to faster convergence. Since random exploration is used for final tuning of the policy, the convergence properties of the applied reinforcement learning update rule are retained. In this manner we significantly improve the learning performance. A series of experiments are described that evaluate the proposed learning algorithms. These include learning manipulation tasks in a kitchen environment, optimization of the speed profile of a liquid carrying motion, transfer of whole body movements to a humanoid robot, as well as learning of a classical via-point problem.
Secondary keywords:	učenje s posnemanjem;robotska manipulacija;semantični dogodki;verjetnostni semantični modeli;dinamični generatorji gibov;optimizacija hitrostnih profilov;stabilnost humanoidnih robotov;spodbujevano učenje;usmerjeno raziskovanje;disertacije;Roboti;Disertacije;Učenje;
Type (COBISS):	Doctoral dissertation
Study programme:	1000319
Embargo end date (OpenAIRE):	1970-01-01
Thesis comment:	Univ. v Ljubljani, Fak. za elektrotehniko
Pages:	IV, 118 str.
ID:	9113035