您的位置:首页 >知识百科 >

有时对AI来说太好奇是不好的

这是一个与时间一样古老的困境。星期五晚上已经过去了,你正试图选择一家餐馆吃晚饭。(假设您一直等到最后一分钟才预订)。不管怎样,你应该去你最心爱的水坑,还是尝试一个新的场所,以期发现更好的东西?有可能,但这种好奇心伴随着风险:你探索,食物可能会更糟,或者你利用,并且无法走出狭窄的道路。

好奇心驱使AI探索世界,现在在无限的用例中——自主导航、机器人决策、优化健康结果。在某些情况下,机器使用“强化学习”来完成一个目标,其中人工智能代理迭代地学习从因良好行为获得奖励和因不良行为受到惩罚的过程。

就像人类在选择餐厅时面临的两难境地一样,这些智能体也在努力平衡花费在发现更好行动(探索)上的时间和花费在过去导致高回报的行动(利用)上的时间。太多的好奇心会分散代理做出正确决策的注意力,而太少则意味着代理永远不会发现好的决定。

为了使AI代理具有恰到好处的好奇心,麻省理工学院不可能的AI实验室和计算机科学与人工智能实验室(CSAIL)的研究人员创建了一种算法,可以克服AI过于“好奇”和被注意力分散注意力的问题。手头的任务。他们的算法会在需要时自动增加好奇心,如果代理从环境中获得足够的监督以知道该做什么,就会抑制它。

在对60多个视频游戏进行测试时,该算法能够在困难和简单的探索任务中取得成功,而以前的算法只能单独处理困难或简单的领域。通过这种方法,人工智能代理使用更少的数据来学习最大化激励的决策规则。

“如果你很好地掌握了探索与开发之间的权衡,你可以更快地学习正确的决策规则——任何更少的东西都需要大量的数据,这可能意味着不理想的医疗、更少的网站利润以及不支持的机器人学会做正确的事,”监督这项研究的麻省理工学院教授兼不可能的人工智能实验室主任普尔基特·阿格拉瓦尔说。

“想象一个网站试图弄清楚其内容的设计或布局,以最大限度地提高销售额。如果一个人不能很好地进行探索-开发,收敛到正确的网站设计或正确的网站布局将需要很长时间,这意味着或者在医疗保健环境中,例如COVID-19,可能需要做出一系列决定来治疗患者,如果您想使用决策算法,他们需要快速学习并高效——在治疗大量患者时,您不希望得到次优的解决方案。我们希望这项工作将适用于这种性质的现实世界问题。

好奇心害死猫

很难涵盖好奇心心理基础的细微差别——挑战寻求行为的潜在神经相关性是一种鲜为人知的现象。对行为进行分类的尝试已经跨越了深入研究我们的冲动、剥夺敏感性以及社会和压力承受能力的研究。

通过强化学习,这个过程在情感上有点“修剪”,并被剥离到最基本的部分,但在技术方面它相当复杂(令人惊讶)。本质上,代理应该只在没有足够的监督来尝试不同的事情时才会好奇,如果有监督,它必须调整好奇心并降低它。

由于大部分游戏是小代理在奇幻环境中运行以寻找奖励并执行一系列动作以实现某些目标,因此它似乎是研究人员算法的逻辑测试平台。在实验中,对于像马里奥赛车和蒙特祖玛的复仇这样的游戏,他们将上述游戏分为两个不同的部分:一个是监督稀疏的,这意味着代理的指导较少,这被认为是“硬”的探索游戏,另一个是监督较多的游戏密集,或“简单”的探索游戏。

例如,假设在《马里奥赛车》中,您只移除了所有奖励,因此您不知道敌人何时杀死了您。当您收集硬币或跳过管道时,您不会获得任何奖励。最后只告诉代理它做得如何。这将是监督稀疏的第一桶。在这种情况下,激发好奇心的算法做得很好。

但是现在,假设为代理提供了密集的监督——跳过管道、收集硬币和杀死敌人的奖励。在这里,没有好奇心的算法表现得非常好,因为它经常得到奖励。但相反,如果你采用同样使用好奇心的算法,它的学习速度会很慢。这是因为好奇的智能体可能会尝试以不同的方式快速奔跑、跳舞、进入游戏屏幕的每个部分——这些都是有趣的事情——但不会帮助智能体在游戏中取得成功。然而,该团队的算法始终表现良好,无论其所处环境如何。

未来的工作可能涉及回到多年来令心理学家感到高兴和困扰的探索:一种适当的好奇心衡量标准——没有人真正知道用数学方式定义好奇心的正确方法。

“在新问题上获得一致的良好性能极具挑战性——因此,通过改进探索算法,我们可以节省您针对感兴趣的问题调整算法的精力。我们需要好奇心来解决极具挑战性的问题,但在某些问题上可能会受到伤害“麻省理工学院CSAIL博士说。学生Zhang-WeiHong与麻省理工学院CSAILMEng'22的EricChen共同主要作者撰写了一篇关于这项工作的新论文。

“像好奇心这样的内在奖励是引导智能体发现有用的多样化行为的基础,但这不应该以在给定任务上表现出色为代价。这是人工智能中的一个重要问题,该论文提供了一种平衡这种权衡的方法.看看这些方法如何从游戏扩展到现实世界的机器人代理将会很有趣,”卡内基梅隆大学的教授DeepakPathak说。

“当前人工智能和认知科学面临的最大挑战之一是如何平衡探索和利用——寻找信息与寻找奖励。孩子们可以无缝地做到这一点,但它在计算上具有挑战性,”杰出的心理学教授AlisonGopnik指出加州大学伯克利分校的哲学副教授,他没有参与该项目。

“这篇论文使用了令人印象深刻的新技术来自动完成这一任务,设计了一个能够系统地平衡对世界的好奇心和对奖励的渴望的代理,[从而]朝着使人工智能代理(几乎)像孩子一样聪明的目标又迈出了一步。”

免责声明:本文由用户上传,如有侵权请联系删除!