深度学习在过去十年中爆炸式增长的一个原因是编程语言的可用性,这些编程语言可以自动化数学-大学水平的微积分-这是训练每个新模型所需的。神经网络通过调整其参数来训练,以尝试最大化可以快速计算训练数据的分数。用于调整每个调谐步骤中的参数的方程过去都是手工精心推导的。深度学习平台使用一种称为自动微分的方法来自动计算调整。这使得研究人员能够快速探索巨大的模型空间,并找到真正有效的模型,而无需了解基础数学。
但是,像气候建模或财务规划这样的问题呢,其中潜在的情景从根本上是不确定的?对于这些问题,仅有微积分是不够的——你还需要概率论。“分数”不再只是参数的确定性函数。相反,它由随机模型定义,该模型对未知数进行随机选择。如果你尝试在这些问题上使用深度学习平台,它们很容易给出错误的答案。为了解决这个问题,麻省理工学院的研究人员开发了ADEV,它扩展了自动微分以处理随机选择的模型。这为更广泛的问题带来了人工智能编程的好处,能够快速试验可以推理不确定情况的模型。
主要作者、麻省理工学院电气工程和计算机科学博士生亚历克斯·卢(AlexLew)说,他希望人们对使用概率模型不那么谨慎,因为有一种工具可以自动区分它们。“手动推导出低方差、无偏梯度估计器的需求可能会导致一种看法,即概率模型比确定性模型更棘手或更挑剔。但概率是模拟世界的一个非常有用的工具。我希望通过提供一个自动构建这些估计器的框架,ADEV将使试验概率模型更具吸引力,从而可能在人工智能及其他领域实现新的发现和进步。
诺伊大学厄巴纳-香槟分校(UniversityofIllinoisatUrbana-Champaign)副教授萨萨·米萨洛维奇(SasaMisailovic)没有参与这项研究,他补充道:“随着概率编程范式的出现,以解决科学和工程中的各种问题,关于我们如何在坚实的数学原理上实现高效的软件实现的问题出现了。ADEV为导数的模块化和组合概率推理提供了这样的基础。ADEV将概率编程(自动化数学和更具可扩展性的推理算法)的优势带到了更广泛的问题中,其目标不仅仅是推断什么是真实的,而是决定下一步要采取什么行动。
除了气候建模和财务建模之外,ADEV还可用于运筹学,例如,通过模拟等待过程和评估结果质量来模拟呼叫中心的客户队列,以最大限度地减少预期的等待时间,或者用于调整机器人用于抓取物理对象的算法。合著者MathieuHuot表示,他很高兴看到ADEV“被用作新型低方差估计器的设计空间,这是概率计算中的一个关键挑战。
这项研究在POPL2023上获得了SIGPLAN杰出论文奖,由VikashMansighka共同撰写,他领导麻省理工学院脑与认知科学系以及计算机科学和人工智能实验室的概率计算项目,并帮助领导麻省理工学院的智能探索,以及牛津大学的MathieuHuot和SamStaton。Huot补充说:“ADEV提供了一个统一的框架,用于推理以干净,优雅和组合的方式公正地估计梯度的普遍问题。
“我们许多最具争议的决定——从气候政策到税法——都归结为不确定性下的决策。ADEV通过自动化一些最难的数学,使尝试解决这些问题的新方法变得更加容易,“Mansinghka说。“对于我们可以使用概率程序建模的任何问题,我们有新的自动化方法来调整参数,以尝试创建我们想要的结果,并避免我们不想要的结果。