magistrsko delo
Povzetek
V magistrskem delu obravnavamo algoritme okrepitvenega učenja na primeru igranja računalniških iger. Namen magistrskega dela je implementacija igre v okolju Unity in analiza učinkovitosti algoritmov okrepitvenega učenja računalniškega igralca. Opisane so teoretične osnove okrepitvenega učenja, podrobneje pa so predstavljeni algoritmi PPO (angl. Proximal Policy Optimization), SAC (angl. Soft Actor Critic) in DQN (angl. Deep Q-Network), ki so uporabljeni v končni analizi. Rezultati so pokazali, da je bilo učenje agenta v celoti gledano uspešno. V testnem okolju se je najbolje odrezal algoritem PPO, z uporabo katerega je naučen agent v povprečju dosegal 86,4% maksimalne možne nagrade, najslabše pa algoritem DQN, ki ni primeren za uporabo v implementiranem testnem okolju.
Ključne besede
okrepitveno učenje;računalniške igre;Unity;agent;strojno učenje;magistrske naloge;
Podatki
Jezik: |
Slovenski jezik |
Leto izida: |
2021 |
Tipologija: |
2.09 - Magistrsko delo |
Organizacija: |
UM FERI - Fakulteta za elektrotehniko, računalništvo in informatiko |
Založnik: |
[J. Banko] |
UDK: |
004.85:004.96(043.2) |
COBISS: |
67936771
|
Št. ogledov: |
375 |
Št. prenosov: |
67 |
Ocena: |
0 (0 glasov) |
Metapodatki: |
|
Ostali podatki
Sekundarni jezik: |
Angleški jezik |
Sekundarni naslov: |
Reinforcement learning of game-playing agents in the Unity engine |
Sekundarni povzetek: |
In the master thesis we deal with the reinforcement learning algorithms on the example of playing computer games. The purpose of the thesis is to implement a game in the Unity engine and perform an effectiveness analysis of reinforcement learning algorithms of a computer player. Theoretic bases of reinforcement learning are described and PPO (Proximal Policy Optimization), SAC (Soft Actor Critic) and DQN (Deep Q-Network) algorithms that are used in the final analysis are presented in detail. The results have shown that the learning of the agent was overall successful. The best algorithm in the test environment was PPO, using which the agent achieved 86,4% of the maximal possible reward on average, and the worst was DQN, which is not suitable for use in the implemented test environment. |
Sekundarne ključne besede: |
reinforcement learning;computer games;Unity;agent;machine learning; |
Vrsta dela (COBISS): |
Magistrsko delo/naloga |
Komentar na gradivo: |
Univ. v Mariboru, Fak. za elektrotehniko, računalništvo in informatiko, Računalništvo in informacijske tehnologije |
Strani: |
VIII, 53 str. |
ID: |
12934011 |