|
|
|
|
LEADER |
02727na a2200229 4500 |
003 |
HR-ZaFER |
008 |
160221s2018 ci ||||| m||| 00| 0 hr d |
035 |
|
|
|a (HR-ZaFER)ferid5424
|
040 |
|
|
|a HR-ZaFER
|b hrv
|c HR-ZaFER
|e ppiak
|
100 |
1 |
|
|a Mrzljak, Nikola
|
245 |
1 |
0 |
|a Sustav za igranje računalnih igara temeljen na dubokom podržanom učenju :
|b diplomski rad /
|c Nikola Mrzljak ; [mentor Tomislav Hrkać].
|
246 |
1 |
|
|a Computer Game Playing System Based on Deep Reinforcement Learning
|i Naslov na engleskom:
|
260 |
|
|
|a Zagreb,
|b N. Mrzljak,
|c 2018.
|
300 |
|
|
|a 45 str. ;
|c 30 cm +
|e CD-ROM
|
502 |
|
|
|b diplomski studij
|c Fakultet elektrotehnike i računarstva u Zagrebu
|g smjer: Računarska znanost, šifra smjera: 56, datum predaje: 2018-06-29, datum završetka: 2018-07-11
|
520 |
3 |
|
|a Sažetak na hrvatskom: U ovom radu objašnjena su teorijska načela potrebna za shvaćanje osnovne problematike dubokog podržanog učenja i izučavani su različiti algoritmi kojima je moguće riješiti problem dubokog podržanog učenja s primjenom na video igre. Algoritmi koji su obrađeni u okviru rada su: duboka Q mreža, dvostruka duboka Q mreža, suparnička dvostruka duboka Q mreža te asinkroni prednosni akter-kritičar. U okviru rada su implementirani svi obrađeni algoritmi, provedena su mjerenja nad njima na temelju igre Atari Breakout i uspoređeni su rezultati mjerenja. Rezultati mjerenja pokazuju da je asinkroni prednosni akter-kritičar algoritam koji nudi najbolje performanse s obzirom na vremenske i sklopovske resurse koji su potrebni pri rješavanju problema dubokog podržanog učenja.
|
520 |
3 |
|
|a Sažetak na engleskom: This thesis lays out theoretical principles that are needed in order to understand the problem of deep reinforcement learning and studies various algorithms that can solve the problem of deep reinforcement learning with application to video games. Algorithms that are covered in this thesis are: Deep Q Network, Double Deep Q Network, Dueling Double Deep Q Network and asynchronous advantage actor-critic. Aforementioned algorithms were implemented within this thesis, measurements were taken with respect to the Atari Breakout video game and the measurement results were compared. Results show that asynchronous advantage actor-critic algorithm shows the best performance with respect to time and hardware resources that are needed for solving deep reinforcement learning task.
|
653 |
|
1 |
|a duboko podržano učenje
|a asinkroni prednosni-akter kritičar
|a strojno učenje
|a Markovljev proces odluke
|
653 |
|
1 |
|a deep reinforcement learning
|a asynchronous advantage actor-critic
|a machine learning
|a Markov decision process
|
700 |
1 |
|
|a Hrkać, Tomislav
|4 ths
|
942 |
|
|
|c Y
|
999 |
|
|
|c 49594
|d 49594
|