Strojno učenje računalniškega igralca v igri Havannah

diplomsko delo

Nino Serec (Avtor), Damjan Strnad (Mentor)

Povzetek

V zadnjih letih je bil na področju umetne inteligence z uporabo okrepitvenega učenja nevronskih mrež dosežen preboj pri sposobnostih računalnika za igranje iger na deski, kot je Go, pri katerih je bil človek doslej močnejši nasprotnik. V diplomskem delu raziščemo algoritem igranja iger AlphaZero, ki kombinira tehnike preiskovanja dreves Monte Carlo in okrepitvenega učenja nevronskih mrež. Algoritem začne brez posebnega predznanja o dobrih strategijah, vendar se moč algoritma s postopkom učenja, ki se ponavlja iterativno, konstantno povečuje. V diplomskem delu opišemo in implementiramo osnovno obliko AlphaZero za igranje igre Havannah. Naučimo več različic modela nevronskih mrež, kjer vsak naslednik premaga svojega prednika in postane prvak. S tem pokažemo, da se lahko računalniški igralec uči igranja igre Havannah samo s podanimi pravili igre, tako da je sposoben premagati povprečnega človeškega igralca.

Ključne besede

igra Havannah;drevesno preiskovanje Monte Carlo;nevronske mreže;okrepitveno učenje;diplomske naloge;

Podatki

Jezik:	Slovenski jezik
Leto izida:	2020
Tipologija:	2.11 - Diplomsko delo
Organizacija:	UM FERI - Fakulteta za elektrotehniko, računalništvo in informatiko
Založnik:	[N. Serec]
UDK:	004.388.4:004.85(043.2)
COBISS:	45050627
Št. ogledov:	553
Št. prenosov:	67
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Angleški jezik
Sekundarni naslov:	Machine learning of computer player in Havannah game
Sekundarni povzetek:	In recent years, in the field of artificial intelligence, the reinforcement learning of neural networks has been used to achieve a breakthrough in the ability of the computer players to play board games, such as Go, in which human has been a stronger opponent. In this thesis, we explore the AlphaZero algorithm, which combines Monte Carlo tree search and reinforced neural network learning. The algorithm starts without any special prior knowledge of good strategies, but the algorithm becomes stronger with a learning process that repeats iteratively. In this thesis, we implement the basic form of AlphaZero for playing the Havannah game. Several versions of the neural network model are trained to play the game, where each successor defeats its predecessor and becomes the champion, thus showing that a computer player can learn to play the Havannah game and win against a human player, simply by being given the rules of the game and not possessing any special prior knowledge of good strategies.
Sekundarne ključne besede:	Havannah;Monte Carlo tree search;neural networks;reinforced learning;tabula rasa;
Vrsta dela (COBISS):	Diplomsko delo/naloga
Komentar na gradivo:	Univ. v Mariboru, Fak. za elektrotehniko, računalništvo in informatiko, Računalništvo in informacijske tehnologije
Strani:	VIII, 42 f.
ID:	12074975