认知决策机理与智能科学基础理论高端论坛系列报告 — 实时双向人机价值对齐

供稿：周福辉 |编辑发布：何艺 | 发表日期：2022-08-12 | 点击数： 327 次

2022年8月12日上午，天地一体频谱认知实验室组办的认知决策机理与智能科学基础理论高端论坛，邀请了Meta现实实验室的袁路遥博士为我们做了第六场基础研究的学术报告。该报告主题为“实时双向人机价值对齐”，主要围绕如何在价值对齐的背景下培养有效的人机双向通信展开讨论。我校副校长、实验室主任吴启晖教授携周福辉教授、董培浩副研究员以及相关课题组同学参与了交流。

社会协调的先决条件是队友之间的双向交流，每个人同时扮演两种角色：善于接受的倾听者和善于表达的表达者。对于与人类一起工作的机器人来说，如果不能满足其中任何一个角色的期望，就会因为人与机器人之间的价值观不一致而破坏团队绩效。具体来说，机器人需要作为一个有效的倾听者，从指令和反馈中推断人类用户的意图，并作为一个富有表现力的表达者，向用户解释其决策过程。现有的可解释人工智能(XAI)系统主要从两种通信方向中的一种来解决人-机器人通信问题，而很少同时从两种通信方向来解决问题。要实现人与机器人的双向心理协调，需要以人为中心、动态-机器与动态-人的交流。除了揭示它的决策过程，还将采用用户的价值观，实时改变其行为，使机器人和人类用户合作实现一组共同的目标，实现人机价值对齐。

袁博士介绍了一种全新的，“动态机器-动态用户”的交流模式，革新了现有的XAI系统。在该系统中，一组机器人在通过解释向用户传达决策过程时，通过考虑现场的反馈来预测用户的价值。为了即时掌握用户的信息，传统的数据驱动机器学习方法被合作中的交流学习取代。机器人的解释将根据人类当前的目标进行上下文调整。这种面向合作的人机合作需要机器具有一定程度的心理理论(ToM):机器会主动推断用户的信念、意图和目标。

为了构建具有上述理解人类用户的信念、愿望和目标的能力，同时又能被用户理解的XAI系统，袁博士介绍了一个实例化为协作游戏的人机合作系统。在这个系统中，人类用户需要与一群机器人侦察兵一起完成一些任务，并优化群体收益。研究结果表明，所提出的XAI系统能够实现协作任务的实时双向值对齐;机器人可以推断出人类用户的价值，并使其价值估计为用户所理解。这些结果提供了一致的证据，支持多种解释的必要性，既提高了机器人的性能质量，也提高了它们的社交智能。因为人工智能协作的目标是减少人类的认知负担和协助任务完成，因此，主动地实时推断人类的价值，并培养人类对系统的理解，为通用的人机合作铺平了道路。

报告结束后，在座的师生同袁路遥博士就人机协同学习的泛化性等问题展开了热烈、深入的讨论，双方均获得了较大的收获。此次学术交流将促进双方今后的进一步合作，促进我室在认知决策、人机协同问题等方向上的研究工作。

报告人简介：

袁路遥，本科毕业于美国密歇根大学安娜堡分校计算机科学系。博士就读于美国加州大学洛杉矶分校，师从朱松纯教授。研究方向为人机协作，通讯式学习，多智能体系统。曾在Science Robotics，NeurIPS，CVPR，IROS上发表论文。目前就职于Meta现实实验室，任研究科学家（research scientist）。