Навчання в ітеративній дилемі в’язня
Loading...
Date
2025
Authors
Терентьєв, Олександр
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Магістерська робота присвячена порівнянню трьох підходів до навчання агентів у грі "ітеративна дилема в’язня" (ІДВ). Досліджено особливості методів навчання з підкріпленням (алгоритм PPO), еволюційної стратегії (алгоритм CMA-ES) та трансформерної моделі (Decision Transformer) для вироблення ігрової стратегії. Розроблено уніфіковане експериментальне середовище з параметрами: 100 раундів на гру, набір із 7 класичних стратегій-опонентів (Tit-for-Tat, Always Cooperate, Always Defect, Random, Pavlov, Grudger, Generous Tit-for-Tat). Реалізовано та навчено агентів за кожним із підходів: PPO-агент з нейронною мережею, еволюційний агент із 5-параметричною Memory-One стратегією, Decision Transformer для навчання на послідовностях ігрових траєкторій. Експериментальне порівняння показало такі результати (середній сумарний виграш): PPO-агент – 258.78 балів, еволюційний агент – 233.66 балів, трансформерний агент – 217.03 балів. PPO-підхід продемонстрував найвищу результативність завдяки адаптивній експлуатації опонентів. Еволюційний підхід забезпечив збалансовану стратегію з високою інтерпретованістю. Трансформерний підхід показав найвищий рівень кооперації з опонентами.
Description
Keywords
ітеративна дилема в’язня, навчання агентів, навчання з підкріпленням, еволюційна стратегія, трансформерна модель, ігрова стратегія, магістерська робота