Застосування алгоритмів навчання Q-мереж для ітеративної задачі в'язня

Ткач, Назарій2026-02-092026-02-092025Ткач Н. В. Застосування алгоритмів навчання Q-мереж для ітеративної задачі в'язня / Ткач Н. В. // Теоретичні та прикладні аспекти побудови програмних систем : праці 16 Міжнародної науково-практичної конференції, 23-24 листопада 2025 року, Київ / [за заг. ред. М. М. Глибовця, Т. В. Панченка та ін. ; Факультет інформатики Національного університету "Києво-Могилянська академія" та ін.]. - Київ : НаУКМА, 2025. - С. 63-64.https://ekmair.ukma.edu.ua/handle/123456789/38294This study is aimed at showcasing the performance of Deep Q-Networks (DQN) for the Iterated Prisoner’s Dilemma (IPD) with a compact episodic state embedding. The agent compresses the interaction context into a fixed-size vector and is trained against deterministic Axelrod strategies. Evaluation of normalized payoff, pairwise cooperation rate of strategies, and the learned behavior of the agent suggests the possibility of efficiently clustering existing strategies by latent learnable features. This may lead to advancements in both game theory and reinforcement learning. The limitations are outlined for future research, including recurrent-based and transformer-based policy-learning networks, stochastic opponents, and comparative analysis to the baseline performance.Ітераційна дилема в’язня (IPD) є класичною моделлю співпраці[1]. У даній роботі представлено результати агента, навченого на основі алгоритму навчання з підкріпленням глибинних Q-мереж ("deep Q-network"[3], здатного формувати контекстно-залежні рішення за рахунок стислого подання стану. Модель тренувалася проти 72 детерміністичних стратегій у 200-ходових епізодах, реалізованих згідно з турнірами Аксельрода [1] в однойменній бібліотеці.ukітераційна дилема в’язня (IPD)DQN-агентdeep Q-networkалгоритими навчанняматеріали конференціїЗастосування алгоритмів навчання Q-мереж для ітеративної задачі в'язняConference materials