只需要几分钟 , 就可以成功模仿专家行为,并记住所有学过的知识,Google DeepMind 研发的 AI Agent,登上了 Nature 子刊 。
据介绍,在 3D 模拟中,该智能体能够在第一次见到的任务中实时模仿专家 , 并从第三人称视角实时可靠地获取来自人类搭档的知识 。
虽然该智能体之前从来没有见过人类,但它可以在各种有挑战性的导航问题中从人类和 AI 专家中快速学习 。例如,它可以在包含大量障碍的复杂地形中穿梭 。
相关研究论文以“Learning few-shot imitation as cultural transmission”为题 , 已发表在 Nature 子刊 Nature Communications 上 。
研究团队认为,该研究结果是对具身 AI 实现快速知识传播的一次概念验证 , 是朝着人类-AI 互动的开放式文化演变迈出的第一步 。
另外,AI 从业者可以从人类社会学习中汲取灵感,构建出适应当下人类伙伴的具身 AI 智能体 , 并妥善保护隐私 。此外,具备社会学习能力的 AI 智能体或许还可以为研究人类文化能力发展提供全新的建模工具 。
具备实时文化传播能力
文化传播(Cultural transmission)是一项通用技能,使人们能够在社交中实时获取和使用信息,同时具备高度的准确度和记忆力 。在人类社会中 , 文化演化使得技能、工具和知识代代相传,并在这些过程中不断积累和完善 。
在这项工作中 , 研究团队通过应用智能体-环境共适应(agent environment co-adaptation)的方法,成功生成了一个具备实时文化传播能力的 AI 智能体 。

如上图 , 为实现这一目标,他们引入了一个虚拟的 3D 任务空间,每个任务都包含由程序生成的地形、障碍物和目标球 。
【只需要几分钟,这个AI Agent就能学会人类专家行为】在每个任务中 , AI 智能体需要按照特定的循环顺序访问目标球以获取奖励,而这个顺序是在任务开始时随机确定的 。然而 , AI 智能体并不知道正确的顺序,所以它必须通过实验或从专家那里学习来弄清楚 。不过,这个任务空间设计得很复杂,可以通过调整世界的大小、障碍物的数量、地形的崎岖程度以及目标球的数量等参数来改变导航的难度 。
研究人员通过精心设计的实验发现,AI 智能体文化传播的出现需要一组最小而充分的训练要素,被命名为 MEDAL-ADR,包括函数逼近、记忆、专家共同参与者、专家丢失、对专家的注意偏向以及自动领域随机化 。

图|MEDAL-ADR 要素
其中,记忆通过 LSTM 网络实现,专家共同参与者是硬编码的机器人,而自动领域随机化有助于训练 AI 智能体在多样化的任务中展现出更好的行为 。
这些组件的巧妙组合构成了一个强大的 AI 智能体,其文化传播能力在回忆(recall)、泛化(generalisation)和保真度(fidelity)三个方面均表现出色 。
回忆评估了智能体在没有专家在场的情况下复制演示的能力,泛化衡量了智能体是否能够在未知任务上进行文化传播,而保真度则计算了智能体选择与专家演示者的一致性程度 。
最引人注目的是,这个 AI 智能体的“大脑”神经元展现出了强大的解释力,专门负责编码社交信息和目标状态 。这一方法不仅使 AI 智能体在训练分布之外实现了泛化 , 而且在专家离开后的单一情境内依然能够回想起演示,为实际应用场景提供了更多可能性,尤其是在人类数据收集困难、任务变化多样且隐私至关重要的情况下 。
一些局限性
尽管该研究提出的 MEDAL-ADR 方法可以使 AI 智能体在开放式学习中适应多样的文化环境 。
但是,研究者团队也指出了评估方法上的一些局限性 。
首先,研究没有从多个人中测试文化传播,而是选择了研究团队内的一个单一参与者 。因此 , 研究无法对跨越人群的强大性做出统计显著的断言 。
其次,导航任务对合理的人类行为的多样性有一定的限制 。为了更深入地了解通用的文化传播,研究需要具有更广泛和深度策略的任务 。
最后,研究人员并未明确区分训练过的智能体是否记住了地理路径,以及是否记住了正确球体顺序 。
MEDAL-ADR 在 GoalCycle3D 任务空间之外是否更为通用?答案可能是有条件的“否” 。
GoalCycle3D 是一个庞大的、程序生成的任务空间,其作用类似于更广泛类别任务的导航代表 。这些任务涉及到需要反复进行战略选择序列的活动,比如烹饪、导航和问题解决 。
然而,该方法需要一些环境条件,包括专家的可见性、退出和程序生成 。如果在某个环境中无法创建近似条件 , 那么该方法就无法应用 。
此外,研究人员并不认为 MEDAL-ADR 方法是人类文化传播发展的直接模型 。但是,他们鼓励未来的研究者进行更多实验证明,如比较 MEDAL-ADR 的模型与不同阶段儿童或非人动物的行为,以及在实验室环境中研究人类和 AI 的文化积累 。这种实证研究有望加深对文化传播、元学习和开放式学习相关问题的理解 。
研究团队表示,他们期待未来 AI 和文化进化心理学领域的跨学科交流 。
论文链接:
https://www.nature.com/articles/s41467-023-42875-2
作者:闫一米
编辑:学术君
猜你喜欢
- win7 hosts需要Administrators权限
- 诉讼离婚一般需要多久才能判下来? 诉讼离婚需要多久时间能判下来
- 小县城最缺什么生意?做生意需要注意的问题
- 离婚诉讼要在哪里法院办理 法院诉讼离婚需要什么手续
- 离婚代理词 原告 离婚案件原告代理人需要做些什么
- 起诉离婚开庭时原告应该注意什么? 起诉离婚时原告需要注意哪些
- 新生儿办理医保卡需要什么材料?新生儿医保首次缴费明细2022
- 劳动仲裁需要什么证据材料,劳动仲裁赔偿一览表
- 久坐真的伤身!一个补救方案,每天只需22min
- 刘备生前为何只给法正一个人追封了谥号呢?
