Навчання в ітеративній дилемі в’язня

Ігнатенко, ОлексійТерентьєв, Олександр2025-09-102025-09-102025https://ekmair.ukma.edu.ua/handle/123456789/36607Магістерська робота присвячена порівнянню трьох підходів до навчання агентів у грі "ітеративна дилема в’язня" (ІДВ). Досліджено особливості методів навчання з підкріпленням (алгоритм PPO), еволюційної стратегії (алгоритм CMA-ES) та трансформерної моделі (Decision Transformer) для вироблення ігрової стратегії. Розроблено уніфіковане експериментальне середовище з параметрами: 100 раундів на гру, набір із 7 класичних стратегій-опонентів (Tit-for-Tat, Always Cooperate, Always Defect, Random, Pavlov, Grudger, Generous Tit-for-Tat). Реалізовано та навчено агентів за кожним із підходів: PPO-агент з нейронною мережею, еволюційний агент із 5-параметричною Memory-One стратегією, Decision Transformer для навчання на послідовностях ігрових траєкторій. Експериментальне порівняння показало такі результати (середній сумарний виграш): PPO-агент – 258.78 балів, еволюційний агент – 233.66 балів, трансформерний агент – 217.03 балів. PPO-підхід продемонстрував найвищу результативність завдяки адаптивній експлуатації опонентів. Еволюційний підхід забезпечив збалансовану стратегію з високою інтерпретованістю. Трансформерний підхід показав найвищий рівень кооперації з опонентами.ukітеративна дилема в’язнянавчання агентівнавчання з підкріпленнямеволюційна стратегіятрансформерна модельігрова стратегіямагістерська роботаНавчання в ітеративній дилемі в’язняOther