您的位置:首页 >知识百科 >

研究表明人类无法检测超过四分之一的深度伪造语音样本

伦敦大学学院的新研究发现,人类只能在73%的时间内识别出人工生成的语音,英语和普通话的准确率相同。这项研究发表在PLOSONE上,是第一项评估人类检测英语以外的人工生成语音的能力的研究。

Deepfake是一种旨在模仿真人声音或外表的合成媒体。它们属于生成人工智能(AI)的范畴,这是一种机器学习(ML),它训练算法来学习数据集的模式和特征,例如真人的视频或音频,以便它可以重现原始声音或图像。

虽然早期的深度伪造语音算法可能需要数千个人的声音样本才能生成原始音频,但最新的预训练算法只需使用人说话的三秒片段即可重新创建人的声音。开源算法是免费提供的,虽然一些专业知识会有所帮助,但个人在几天内训练它们是可行的。

科技公司Apple最近发布了适用于iPhone和iPad的软件,允许用户使用15分钟的录音创建自己的声音副本。

伦敦大学学院的研究人员使用一种文本转语音(TTS)算法,在两个公开可用的数据集(一个是英语,一个是普通话)上进行训练,生成每种语言的50个深度伪造语音样本。这些样本与用于训练算法的样本不同,以避免算法重现原始输入的可能性。

这些人工生成的样本和真实样本向529名参与者播放,看看他们是否能够从虚假语音中检测出真实内容。参与者只能在73%的时间内识别出虚假语音,在接受识别深度伪造语音的训练后,情况仅略有改善。

该研究的第一作者KimberlyMai(伦敦大学学院计算机科学系)表示:“我们的研究结果证实,人类无法可靠地检测深度伪造语音,无论他们是否接受过帮助他们识别人工内容的培训。还值得注意的是,我们在这项研究中使用的样本是使用相对较旧的算法创建的,这提出了一个问题:人类是否无法检测到使用现在和未来最先进的技术创建的深度伪造语音。”

研究人员的下一步是开发更好的自动化语音检测器,作为持续努力的一部分,以创建检测功能以应对人工生成的音频和图像的威胁。

尽管生成式人工智能音频技术有很多好处,例如为那些言语可能受到限制或因病而失去声音的人提供更多便利,但人们越来越担心这种技术可能被犯罪分子和民族国家利用造成重大伤害对个人和社会。

记录在案的犯罪分子使用深度伪造语音的案例包括2019年的一起事件,其中一家英国能源公司的首席执行官通过其老板声音的深度伪造录音,被说服将数十万英镑转移给虚假供应商。

该研究的高级作者、伦敦大学学院计算机科学系的LewisGriffin教授表示:“随着生成人工智能技术变得越来越复杂,并且许多此类工具已公开可用,我们即将看到许多好处和风险。当然,政府和组织制定应对滥用这些工具的战略是谨慎的做法,但我们也应该认识到即将出现的积极可能性。”

免责声明:本文由用户上传,如有侵权请联系删除!