Навчання в ітеративній дилемі в’язня

Терентьєв, Олександр

Навчання в ітеративній дилемі в’язня

Files

Terentiev_Mahisterska_robota.pdf (872.44 KB)

Terentiev_Mahisterska_robota_1.pdf (239.71 KB)

Date

2025

Authors

Терентьєв, Олександр

Abstract

Магістерська робота присвячена порівнянню трьох підходів до навчання агентів у грі "ітеративна дилема в’язня" (ІДВ). Досліджено особливості методів навчання з підкріпленням (алгоритм PPO), еволюційної стратегії (алгоритм CMA-ES) та трансформерної моделі (Decision Transformer) для вироблення ігрової стратегії. Розроблено уніфіковане експериментальне середовище з параметрами: 100 раундів на гру, набір із 7 класичних стратегій-опонентів (Tit-for-Tat, Always Cooperate, Always Defect, Random, Pavlov, Grudger, Generous Tit-for-Tat). Реалізовано та навчено агентів за кожним із підходів: PPO-агент з нейронною мережею, еволюційний агент із 5-параметричною Memory-One стратегією, Decision Transformer для навчання на послідовностях ігрових траєкторій. Експериментальне порівняння показало такі результати (середній сумарний виграш): PPO-агент – 258.78 балів, еволюційний агент – 233.66 балів, трансформерний агент – 217.03 балів. PPO-підхід продемонстрував найвищу результативність завдяки адаптивній експлуатації опонентів. Еволюційний підхід забезпечив збалансовану стратегію з високою інтерпретованістю. Трансформерний підхід показав найвищий рівень кооперації з опонентами.

Keywords

ітеративна дилема в’язня, навчання агентів, навчання з підкріпленням, еволюційна стратегія, трансформерна модель, ігрова стратегія, магістерська робота

URI

https://ekmair.ukma.edu.ua/handle/123456789/36607

Collections

F3 Комп'ютерні науки

Full item page