发布时间:2022-03-14
2022年3月14日,《eLife》在线发表了题为《猕猴在吃豆人游戏中的分层组合策略》的研究论文。该研究由中国科学院脑科学与智能技术卓越创新中心(神经科学研究所)、灵长类神经生物学国家重点实验室杨天明研究组完成。该研究设计了一种新颖有趣的实验范式——吃豆人游戏,并且训练猕猴学会使用摇杆完成该游戏范式的主要任务。该研究将复杂的行为范式和人工智能建模结合,定量研究了猕猴解决复杂问题的启发式行为策略特点,为理解大脑实现高级认知功能的计算机制提供了全新方法和重要启发。
日常生活中,人们大部分的重要目标通常超出了简单决策的实现范畴,然而,这些目标可以通过设计一系列缜密的基础策略组合来实现。个体可以根据当前的情况优先考虑每一种策略的收益和风险,并在较容易完成的子任务中具体问题具体分析。高度动态变化的环境会时刻伴随着出乎意料的意外和干扰,因此保持相机而变的灵活性也在决策过程中至关重要。尽管研究动物的复杂行为和潜在的神经机制在神经科学和认知科学领域是一个持续受到关注的科学问题,但大部分的动物行为范式复杂程度,都不足以支持研究动物如何简化动态多样的策略以完成复杂的高级认知任务。
为解决这些问题,该研究改编经典街机游戏吃豆人(图A),并训练猕猴学会使用操纵杆来控制吃豆人在一个封闭的迷宫中运动收集食物,猕猴避开敌人追击将获得实时果汁作为奖励。在经过一段时间的训练后,猕猴能够理解游戏中各个元素和奖励惩罚之前的关联,并依次相应地做出连续的运动抉择,来躲避敌人的追击,获取更多的奖励,甚至在特定规则下对敌人实现反杀。虽然该游戏高度动态且元素复杂,但本质上它比较类似一个动物野外觅食任务,这也可能是该研究成功训练动物的关键要素。
为定量地描述猕猴行为策略的特点,研究人员利用机器学习和统计方法,动态拟合匹配游戏玩法与多个智能策略模型。这种多智能体协作决策模型也是人工智能领域实现吃豆人游戏最高分数的设计关键。该计算模型首先设计了一组策略基组,策略基组中每个策略都只解决游戏中一个子任务,例如觅食最近的食物、躲避敌人追击或者通过能量豆食物改变敌人的状态,其次,该模型将不同的策略基组对比拟合到到猕猴的游戏行为数据中,推断策略的动态权重。该计算模型对猕猴手柄运动的预测准确率能够达到90%以上。更重要的是,通过策略动态权重的分析,发现猕猴通过使用分而治之的启发式方法,在每个时间只关注游戏的一个子任务,分布式地解决这些问题,从而实现对游戏总体目标的优化。更令人感到吃惊的是,研究发现猕猴能够在时序上组合这些策略基组,构建更为复杂的复合策略,来处理特定的更有挑战性的任务。以上的研究结果表明,猕猴能够优化掌握一套策略基组,并采用分层决策的方式来解决十分复杂的任务(图B)。
本研究着眼于系统认知神经科学和人工智能广泛关注的交叉领域,将复杂的行为范式和严谨的计算建模进行结合,为未来研究灵长类动物的高级认知提供了重要的实验证据和新颖的分析方法。
该研究由博士后杨千里、林中乔,博士生张文怡、陈希源,以及工作人员李建澍和张嘉琦在杨天明研究员的指导下完成,研究组的其他成员也在课题的各个阶段给予了帮助。该工作得到科技部、中科院、上海市科委和基金委的资助。
图注(A)吃豆人行为范式。 (B) 猕猴用分层决策的策略解决吃豆人任务。该策略在最低级别,为操纵杆的移动做出决定:向上、向下、向左或向右。在中间层,在策略基组之间进行选择。在更高的层次上,可以将简单的策略拼凑成更复杂的复合策略基组。