您的位置:首页 >知识百科 >

打开黑匣子以构建更好的AI模型

当深度学习模型部署在现实世界中时,也许是为了检测信用卡活动中的金融欺诈或识别医学图像中的癌症,它们通常可以胜过人类。

但这些深度学习模型究竟在学习什么?例如,经过训练可以在临床图像中发现皮肤癌的模型是否真的了解了癌变组织的颜色和纹理,或者它是否标记了其他一些特征或模式?

这些强大的机器学习模型通常基于人工神经网络,这些人工神经网络可以具有数百万个处理数据以进行预测的节点。由于它们的复杂性,研究人员经常将这些模型称为“黑匣子”,因为即使是建造它们的科学家也不了解引擎盖下发生的一切。

StefanieJegelka对这种“黑匣子”解释并不满意。作为麻省理工学院电气工程与计算机科学系新任副教授,Jegelka正在深入研究深度学习,以了解这些模型可以学习什么、它们的行为方式以及如何将某些先验信息构建到其中。

“归根结底,深度学习模型将学习什么取决于很多因素。但是建立与实践相关的理解将帮助我们设计更好的模型,也帮助我们了解模型内部发生的事情,这样我们就知道什么时候可以部署模型,什么时候不能。这非常重要,”Jegelka说,他也是计算机科学与人工智能实验室(CSAIL)和数据、系统与社会研究所(IDSS)的成员。

Jegelka特别感兴趣的是当输入数据为图表形式时优化机器学习模型。图数据带来了特定的挑战:例如,数据中的信息包括关于单个节点和边的信息,以及结构——什么连接到什么。

此外,图具有机器学习模型需要遵守的数学对称性,因此,例如,相同的图总是导致相同的预测。将这种对称性构建到机器学习模型中通常并不容易。

以分子为例。分子可以表示为图形,顶点对应于原子,边对应于它们之间的化学键。制药公司可能希望使用深度学习来快速预测许多分子的特性,从而缩小他们必须在实验室进行物理测试的数量。

Jegelka研究建立数学机器学习模型的方法,这些模型可以有效地将图形数据作为输入并输出其他东西,在这种情况下是对分子化学性质的预测。这是特别具有挑战性的,因为分子的特性不仅取决于其中的原子,还取决于它们之间的连接。

图机器学习的其他示例包括流量路由、芯片设计和推荐系统。

设计这些模型变得更加困难,因为用于训练它们的数据通常与模型在实践中看到的数据不同。也许该模型是使用小分子图或交通网络训练的,但一旦部署它看到的图更大或更复杂。

在这种情况下,研究人员可以期望这个模型学到什么,如果现实世界的数据不同,它在实践中是否仍然有效?

“由于计算机科学中的一些困难问题,你的模型无法学习所有内容,但你能学到什么和不能学到什么取决于你如何设置模型,”Jegelka说。

她通过将对算法和离散数学的热情与对机器学习的热情相结合来解决这个问题。

从蝴蝶到生物信息学

Jegelka在德国的一个小镇长大,高中时就对科学产生了兴趣;一位支持她的老师鼓励她参加国际科学竞赛。她和她来自美国和新加坡的队友因用三种语言创建的关于蝴蝶的网站而获奖。

“对于我们的项目,我们在当地一所应用科学大学用扫描电子显微镜拍摄了翅膀的图像。我还有机会在梅赛德斯奔驰使用高速摄像机——这种摄像机通常拍摄内燃机——我用它来捕捉蝴蝶翅膀运动的慢动作视频。那是我第一次真正接触到科学和探索,”她回忆道。

出于对生物学和数学的兴趣,Jegelka决定在蒂宾根大学和德克萨斯大学奥斯汀分校学习生物信息学。作为一名本科生,她有一些机会进行研究,包括在乔治敦大学的计算神经科学实习,但不确定要从事什么职业。

当她回到大学最后一年时,Jegelka搬去和两个在图宾根的马克斯普朗克研究所担任研究助理的室友同住。

“他们正在研究机器学习,这对我来说真的很酷。我必须写我的学士论文,所以我在研究所询问他们是否有给我的项目。我开始在马克斯普朗克研究所从事机器学习方面的工作,我很喜欢它。我在那里学到了很多东西,这是一个进行研究的好地方,”她说。

她留在马克斯普朗克研究所完成硕士论文,然后在马克斯普朗克研究所和瑞士联邦理工学院攻读机器学习博士学位。

在攻读博士学位期间,她探索了离散数学的概念如何帮助改进机器学习技术。

教学模式学习

Jegelka对机器学习了解得越多,她对理解模型行为以及如何控制这种行为的挑战就越感兴趣。

“你可以用机器学习做很多事情,但前提是你有正确的模型和数据。它不仅仅是一个黑匣子,你把它扔到数据上它就可以工作。你实际上必须考虑它,它的属性,以及你希望模型学习和做什么,”她说。

在加州大学伯克利分校完成博士后研究后,Jegelka迷上了研究并决定在学术界谋求职业生涯。她于2015年加入麻省理工学院,担任助理教授。

“我真正喜欢麻省理工学院的地方,从一开始就是人们非常关心研究和创造力。这是我最欣赏麻省理工学院的地方。这里的人非常重视研究的原创性和深度,”她说。

对创造力的关注使Jegelka能够探索广泛的主题。

她与麻省理工学院的其他教员合作,研究机器学习在生物学、成像、计算机视觉和材料科学方面的应用。

但真正推动Jegelka的是探索机器学习的基础,以及最近的鲁棒性问题。通常,一个模型在训练数据上表现良好,但当它部署在略有不同的数据上时,其性能会下降。她说,将先验知识构建到模型中可以使其更可靠,但了解模型成功需要哪些信息以及如何构建它并不是那么简单。

她还在探索提高图像分类机器学习模型性能的方法。

图像分类模型无处不在,从手机上的面部识别系统到社交媒体上识别虚假账户的工具。这些模型需要大量数据进行训练,但由于人类手动标记数百万张图像的成本很高,因此研究人员通常使用未标记的数据集来预训练模型。

然后,当这些模型稍后针对特定任务进行微调时,它们会重用学习到的表示。

理想情况下,研究人员希望模型在预训练期间尽可能多地学习,以便将这些知识应用到其下游任务中。但在实践中,这些模型通常只学习一些简单的相关性——比如一张图像有阳光,一张有阴影——并使用这些“捷径”对图像进行分类。

“我们表明这是‘对比学习’中的一个问题,它是一种标准的预训练技术,无论是在理论上还是在经验上。但我们还表明,您可以通过修改向模型显示的数据来影响模型将学习表示的信息。这是了解模型在实践中实际要做什么的一步,”她说。

研究人员仍然不了解深度学习模型内部发生的所有事情,或者有关它们如何影响模型学习内容及其行为方式的详细信息,但Jegelka期待继续探索这些主题。

“在机器学习中,我们经常在实践中看到一些事情发生,然后我们试图从理论上理解它。这是一个巨大的挑战。您想建立与您在实践中看到的相匹配的理解,以便您可以做得更好。我们对这一点的理解才刚刚开始,”她说。

在实验室之外,Jegelka是音乐、艺术、旅行和骑自行车的爱好者。但如今,她喜欢将大部分空闲时间花在学龄前的女儿身上。

免责声明:本文由用户上传,如有侵权请联系删除!