This report presents research on the application of policy explanation techniques in the context of coordinated reinforcement learning (CRL) for mobile network optimization. The goal was to improve the interpretability and comprehensibility of decision-making processes in multi-agent environments, with a particular focus on the Remote Antenna Tilt (RET) problem. The task has been formulated as providing insight into the extension of policy explanation in a cooperative multi-agent reinforcement learning (MARL) environment, evaluating its applicability to a network use case, and revealing interactions between agents in such a setting. The results contribute to a better understanding of decision-making processes, dynamics of coordination, and aspects of interpretation in complex multi-agent systems, in particular in the context of mobile network optimization. This research is motivated by the need for transparency, accountability, and trust in AI-driven decision-making processes, especially in critical applications such as mobile networks. The study aimed to bridge the gap between the confusing behavior of many agents and the need for human-understandable explanations. The approach involved training a CRL agent and using a policy explanation method to generate explanations based on the observations and actions taken by the agent. The outcomes demonstrated the effectiveness of the policy explanation method in providing clear and robust interpretations in both single-agent and multi-agent environments. Furthermore, analysis of CRL Q-value functions revealed consistent patterns in some preferences and avoidance of certain interactions with neighboring agents. This insight allows for a better understanding of coordination dynamics in mobile network optimization. In conclusion, this study demonstrates the successful application of policy explanation methods in CRL to optimize mobile networks. Combining CRL and policy explanations improves the interpretation of agent behavior and increases accountability. The study contributes to the expansion of the explainable AI field and lays the foundation for future research on the optimization of complex multi-agent systems.
Denna rapport presenterar forskning om tillämpningen av policyförklaringstekniker i samband med koordinerad förstärkningsinlärning (CRL) för mobilnätsoptimering. Målet var att förbättra tolkningsbarheten och begripligheten för beslutsprocesser i multi-agent miljöer, med särskilt fokus på Remote Antenna Tilt (RET) problemet.Uppgiften har formulerats som att ge insikt i utvidgningen av policyförklaring i en COoperativ multi-agent reinforcement learning (MARL)-miljö, utvärdera dess tillämpbarhet på ett nätverksanvändningsfall och avslöja interaktioner mellan agenter i en sådan miljö. Resultaten bidrar till en bättre förståelse av beslutsprocesser, samordningsdynamik och tolkningsaspekter i komplexa multiagentsystem, särskilt i samband med mobilnätsoptimering. Denna forskning motiveras av behovet av transparens, ansvarighet och förtroende för AI-drivna beslutsprocesser, särskilt i kritiska applikationer som mobilnät. Studien syftade till att överbrygga klyftan mellan många agenters förvirrande beteende och behovet av förklaringar som kan förstås av människor.Tillvägagångssättet innebar att utbilda en CRL-agent och använda en policyförklaringsmetod för att generera förklaringar baserade på observationer och åtgärder som vidtagits av agenten. Resultaten visade effektiviteten av policyförklaringsmetoden för att tillhandahålla tydliga och robusta tolkningar i både enagent- och multiagentmiljöer. Dessutom avslöjade analys av CRL Q-värdefunktioner konsekventa mönster i vissa agenters preferenser och undvikande av vissa interaktioner med angränsande agenter. Denna insikt möjliggör en bättre förståelse av koordinationsdynamiken i mobilnätsoptimering.Sammanfattningsvis visar denna studie den framgångsrika tillämpningen av policyförklaringsmetoder i CRL för att optimera mobila nätverk. Att kombinera CRL:er och policyförklaringar förbättrar tolkningen av agentbeteende och ökar ansvarsskyldigheten. Studien bidrar till utvidgningen av det förklarliga AI-området och lägger grunden för framtida forskning om optimering av komplexa multiagentsystem.