您的位置:首页 >知识百科 >

使用不同数据集训练的神经网络优于传统训练的算法

人工智能神经网络,通过互联网上可用的图像和视频进行训练,可以识别人脸、物体等。但是有一个严重的缺点。教授机器学习算法如何仅依靠在线发现的人脸和物体的视觉库来识别人或物品,不足以代表社会经济和人口群体。

哈佛大学的机器学习研究员以及来自MLCommons和CoactiveAI的合作者使用世界各地家庭中发现的物体图片创建了一个更多样化的数据集,并训练了一个神经网络来根据该数据集对物体进行排序。他们的研究结果在神经信息处理系统会议上发表,揭示了使用来自低资源人群的图像可以显着提高机器学习系统的对象识别性能。

“还没有强烈的动机将公平和平等代表权纳入机器学习系统,”哈佛大学约翰·A·保尔森工程与应用科学学院(SEAS)副教授、该论文的资深作者VijayJanapaReddi说。“这就是我们试图通过这项研究捕捉的大局。

Reddi也是MLCommons的副总裁兼董事会成员,MLCommons是一个由学术和行业人工智能领导者组成的联盟,他与同事合作,使用38,479张家用物品图像的数据集训练神经网络。在非洲,美洲,亚洲和欧洲404个国家的63个家庭中拍摄的照片集被称为“美元街”,最初由Gapminder基金会开发。这家总部位于瑞典的实体派遣摄影师到世界各地,收集月收入在26.99美元至19,671美元之间的家庭家中发现的牙刷,厕所,电视,炉灶,床,灯和其他物品的图像。

“我们需要认识到机器学习系统中更深层次的偏见,”Reddi说。“用同样的词来描述世界各地的炉子,但如果你看看在代表性不足的地区被称为炉子的东西与在富裕家庭中发现的炉子,这些物体的外观和功能可能完全不同。

使用由MLCommons开发的DollarStreet图像集合,其中包含对象名称/标签,地理数据和家庭月收入的强大数据集,该团队发现,他们训练的神经网络在准确分类家居用品方面比前沿系统表现更好,尤其是在低收入家庭中发现的物体。与常用的神经网络(包括ImageNet和OpenImages)相比,他们的机器学习算法正确识别对象的频率提高了65%,这些神经网络是在来自互联网的不太多样化的数据集上进行训练的。

Reddi说:“令人震惊的是,最先进的机器学习模型被认为是理所当然的,以及它们在正确识别资源较低环境中的对象方面的表现有多差。

随着行业和政府越来越依赖机器学习系统来处理信息和做出决策,Reddi说,这项概念验证研究表明,在没有代表低资源人群的包容性数据的情况下训练神经网络的危险。

“DollarStreet一直是对抗人类误解和偏见的有力工具,我们相信它有可能为机器做同样的事情,”该论文的共同资深作者CodyColeman说,他是CoactiveAI的首席执行官兼联合创始人。

“DollarStreet展示了数据在一般意义上的机器学习中的重要性,特别是精心挑选的数据对偏见产生巨大影响的能力,”该论文的合著者DavidKanter说,他是MLCommons的创始人兼执行董事。“我希望通过托管和维护DollarStreet,我们将使研究界和行业能够开发技术,使机器学习使全球每个人受益,特别是在欠发达地区。

“人工智能系统,如果不公平和包容地构建,将加速高资源社区和低资源社区之间的鸿沟,”Reddi说。“当你构建数据集来训练机器学习系统时,你从一个高资源的地方构建数据,而不是特意从资源较少的地区获取和包含数据,对习得偏见的影响变得更大。负责任的人工智能意味着让机器学习在全球范围内可访问,并具有全球代表性。

免责声明:本文由用户上传,如有侵权请联系删除!