magistrsko delo
Monika Bozhinova (Avtor), Damjan Strnad (Mentor)

Povzetek

V magistrskem delu smo se ukvarjali z okrepitvenim učenjem agentov za igranje računalniških iger. V ta namen smo implementirali tri modele agenta, ki temeljijo na uporabi nevronske mreže za aproksimacijo funkcije vrednosti akcij, in predlagali lastno izboljšano arhitekturo dvobojevalne dvojne Q-mreže. Učenje smo izvajali na igrah Pong in Beamrider iz nabora iger Atari 2600. Ugotovili smo, da z našim pristopom dosežemo boljšo zmogljivost agenta kot globoka Q-mreža, dvojna globoka Q-mreža in dvojna globoka Q-mreža z dvobojevalno arhitekturo v igri Pong, medtem ko se v igri Beamrider agent uči počasneje, predvidoma zaradi šuma v drugačni predstavitvi stanja, ki ga predlagani model uporablja.

Ključne besede

globoko okrepitveno učenje;nevronske mreže;globoka Q-mreža;dvobojevalna arhitektura;igre Atari;magistrske naloge;

Podatki

Jezik: Slovenski jezik
Leto izida:
Tipologija: 2.09 - Magistrsko delo
Organizacija: UM FERI - Fakulteta za elektrotehniko, računalništvo in informatiko
Založnik: [M. Bozhinova]
UDK: 004.85:004.96(043.2)
COBISS: 83074563 Povezava se bo odprla v novem oknu
Št. ogledov: 285
Št. prenosov: 55
Ocena: 0 (0 glasov)
Metapodatki: JSON JSON-RDF JSON-LD TURTLE N-TRIPLES XML RDFA MICRODATA DC-XML DC-RDF RDF

Ostali podatki

Sekundarni jezik: Angleški jezik
Sekundarni naslov: Deep reinforcement learning for playing games based on video input
Sekundarni povzetek: In the master's thesis, we dealt with reinforcement learning of agents for playing computer games. To this end, we implemented three agent models based on the use of neural networks as action value function approximators, and proposed our own improved architecture of the dueling double Q-network. We conducted the training on the games Pong and Beamrider from the Atari 2600 games. We found that with our approach we achieve better agent performance than deep Q-networks, double deep Q-networks and double deep Q-networks with dueling architecture in the game Pong, while in Beamrider the agent learns more slowly, presumably due to the noise in the different representation of the state used by the proposed model.
Sekundarne ključne besede: deep reinforcement learning;neural networks;deep Q-network;dueling architecture;Atari games;Pong;Beamrider;
Vrsta dela (COBISS): Magistrsko delo/naloga
Komentar na gradivo: Univ. v Mariboru, Fak. za elektrotehniko, računalništvo in informatiko, Računalništvo in informacijske tehnologije
Strani: XII, 52 str.
ID: 13394388
Priporočena dela:
, diplomsko delo univerzitetnega študija Organizacija in management informacijskih sistemov