在可以在社交媒体上识别我们的朋友的图像识别软件和我们院子里的野花的背景是神经网络,这是一种受我们大脑处理数据方式启发的人工智能。
虽然神经网络通过数据进行冲刺,但其架构使得很难追踪对人类来说显而易见的错误的根源,例如将匡威高帮鞋与踝靴混淆,从而限制了它们在医疗保健图像分析或研究等更重要的工作中的使用。普渡大学开发的一种新工具使发现这些错误就像从飞机上发现山顶一样简单。
开发该工具的普渡大学理学院计算机科学教授DavidGleich表示:“从某种意义上说,如果神经网络能够说话,我们就是在向你展示它会试图说什么。”发表在《自然机器智能》上的一篇论文中。
“我们开发的工具可以帮助您找到网络正在说的地方,‘嘿,我需要更多信息来完成您所要求的操作。’我建议人们在任何高风险的神经网络决策场景或图像预测任务中使用这个工具。”
GitHub上提供了该工具的代码以及用例演示。Gleich与普渡大学计算机科学教授TamalK.Dey和前普渡大学研究生、计算机科学博士学位孟刘(MengLiu)合作进行了这项研究。
在测试他们的方法时,Gleich的团队发现神经网络错误地识别了从胸部X光、基因序列到服装等各种数据库中的图像身份。在一个示例中,神经网络反复将Imagenette数据库中的汽车图像错误地标记为盒式磁带播放器。原因?这些图片取自在线销售清单,并包含汽车音响设备的标签。
神经网络图像识别系统本质上是在分析和识别图像时以模仿神经元加权放电模式的方式处理数据的算法。系统通过图像“训练集”进行训练以完成其任务,例如识别动物、衣服或肿瘤,其中包括每个像素的数据、标签和其他信息,以及图像在分类中的身份。特定类别。
使用训练集,网络学习或“提取”所需的信息,以便将输入值与类别相匹配。该信息是一串称为嵌入向量的数字,用于计算图像属于每个可能类别的概率。一般来说,图像的正确身份属于概率最高的类别。
但嵌入的向量和概率与人类能够识别的决策过程并不相关。输入代表已知数据的100,000个数字,网络会生成一个由128个数字组成的嵌入向量,这些数字与物理特征不对应,尽管它们确实使网络能够对图像进行分类。
换句话说,你无法打开经过训练的系统的算法并继续执行。在输入值和图像的预测身份之间是一个众所周知的“黑匣子”,其中包含跨多个层的无法识别的数字。
“神经网络的问题在于我们无法看到机器内部以了解它是如何做出决策的,所以我们如何知道神经网络是否犯了典型的错误?”格莱奇说道。
格莱奇的方法不是试图通过网络追踪任何单个图像的决策路径,而是使计算机在整个数据库中的所有图像之间看到的关系可视化成为可能。可以将其视为神经网络组织的所有图像的鸟瞰图。
图像之间的关系(如网络对数据库中每个图像的身份分类的预测)基于网络生成的嵌入向量和概率。为了提高视图的分辨率并找到网络无法区分两个不同分类的地方,Gleich的团队首先开发了一种分割和重叠分类的方法,以识别图像最有可能属于多个分类的位置。
然后,团队将这些关系映射到Reeb图上,这是一种来自拓扑数据分析领域的工具。在图表上,网络认为相关的每组图像都由一个点表示。点按分类进行颜色编码。点越接近,网络认为组越相似,并且图表的大多数区域显示单一颜色的点簇。
但是很可能属于多个分类的图像组将由两个不同颜色的重叠点表示。一眼望去,网络无法区分两种分类的区域会显示为一种颜色的点簇,并伴有少量第二种颜色的重叠点。放大重叠的点将显示一个混乱的区域,例如贴有“汽车”和“磁带播放器”标签的汽车图片。
格莱奇说:“我们正在做的就是从网络中获取这些复杂的信息,让人们‘了解’网络如何在宏观层面上看待这些数据。”“Reeb地图代表了重要的事情、大群体以及它们之间的关系,这使得我们可以看到错误。”