M. Chacón Falcón, D. Rios Insua

Adapting to opponents with unknown, non-stationary objectives is a core challenge in multi-agent reinforcement learning. To address this problem, we introduce Bayesian Opponent-Aware Soft Q-Learning, a novel framework bridging Adversarial Risk Analysis (ARA) and Maximum Entropy RL. Our approach augments the RL objective with an information-seeking bonus, yielding a convergent opponent-aware soft Q-operator. Additionally, we drop the assumption of observable opponent rewards when modeling other agents, and instead treat them as learnable continuous latent variables. Combined with a learned transition model, this approach enables safe policy adaptation via offline imagination. Empirical results demonstrate our framework infers hidden rewards and detects shifts in opponent strategies, enabling robust exploitation in uncertain Markov games.

Palabras clave: Opponent modeling, Soft Q-Learning, Sequential Monte Carlo

Programado

GT Inferencia Bayesiana: Sesión de Jóvenes Bayesianos en honor a Mª Eugenia Castellanos
5 de septiembre de 2026  10:00
Aula 20


Otros trabajos en la misma sesión


Política de cookies

Usamos cookies solamente para poder idenfiticarte y autenticarte dentro del sitio web. Son necesarias para el correcto funcionamiento del mismo y por tanto no pueden ser desactivadas. Si continúas navegando estás dando tu consentimiento para su aceptación, así como la de nuestra Política de Privacidad.

Adicionalmente, utilizamos Google Analytics para analizar el tráfico del sitio web. Ellos almacenan cookies también, y puedes aceptarlas o rechazarlas en los botones de más abajo.

Aquí puedes ver más detalles de nuestra Política de Cookies y nuestra Política de Privacidad.