近期,工学院李阿明课题组在群体博弈问题的研究中取得重要进展,建立了智能个体在非完全信息下策略更新的统一框架,给出了集体最优策略得以涌现的理论条件。相关研究成果以“Imitation dynamics on networks with incomplete information”为题,发表于Nature Communications。
定量地理解复杂网络系统中群体行为的演化是多学科领域广泛关注的交叉科学问题。系统科学、博弈论、人工智能与网络科学等理论与方法的深度融合,为探讨该问题提供了有效工具。在无结构的群体中,传统研究认为纳什均衡策略更易演化。在结构群体中,基于复杂网络的研究发现群体最优策略可以涌现。策略更新规则决定了个体以何种方式调整其策略,是驱动博弈策略演化的直接动力。基于灭生(Death-Birth)、模仿(Imitation)、对比较(Pairwise Comparison)等经典更新规则(图1a-c)的演化动力学性态分析一直是研究人员关注的焦点问题。研究表明,群体博弈演化结果在不同的更新规则下有着显著的差别。如何统一地分析与理解不同更新机制下博弈策略的演化特性,对于理解与调控复杂系统中群体行为有着十分重要的意义,一直是一个公开的难题。
图1:复杂网络上非完全信息下的博弈策略更新机制
李阿明课题组针对智能个体间的复杂对抗博弈,建立了非完全信息下策略更新的统一框架。在该框架下,个体策略更新时所参考的信息可分为自身的内部信息和网络环境中邻居的外部信息;其中,外部信息并非完全可知的,且外部信息与内部信息的重要性也可以不同(图1d)。这种非完全信息下的策略更新机制统一了目前常见的经典策略更新规则(图1e)。
图2:非完全信息下群体博弈策略演化
通过对不同信息条件下群体演化博弈动力学的系统分析发现:对于两个体博弈(如囚徒困境),不参考内部信息有利于群体最优策略演化(图2a);反之,在考虑内部信息时,参考更多的外部信息则可促进群体合作行为的涌现。该结论同样适用于聚集系数较高的网络系统中多个体公共品博弈的情形(图2c、e),但当网络聚集系数较低时,结论相反(图2d、f)。进一步地,他们系统地给出了非完全信息下不同博弈策略占优的理论条件,以及网络的微观拓扑结构特性与集体博弈策略涌现之间的关系。此外,通过对非完全信息下网络个体间博弈对抗关系的系统剖析,他们创造性地将作用关系分为个体与其一阶和二阶邻居的竞争效应(图2b),发现二阶竞争是群体策略演化的决定性要素。这一结果揭示了非完全信息下群体博弈策略得以演化的深层机理,为完整理解复杂网络系统中群体行为的演化提供了全新的直观视角,对进一步探讨复杂群体行为的调控具有重要的意义。
工学院博士研究生王晓琛为该论文第一作者,李阿明为通讯作者,合作者包括工学院毕业生、北京理工大学助理教授周雷(共同第一作者),北卡罗莱纳大学教堂山分校助理教授Alex McAvoy。本研究得到科技部重点研发计划青年科学家项目、国家自然科学基金、北京市科技新星计划等的支持。