来自谷歌、DeepMind、ETHZ、普林斯顿大学和加州大学伯克利分校的计算机科学家团队发现,基于人工智能的图像生成系统有时可以生成用于训练它们的图像副本。该小组发表了一篇论文,描述了在arXiv预印本服务器上测试几种图像生成软件系统的情况。
StableDiffusion、Imagen和Dall-E2等图像生成系统最近出现在新闻中,因为它们能够仅基于自然语言提示生成高分辨率图像。这样的系统已经用数千张图像作为模板进行了训练。
在这项新的努力中,研究人员发现这些系统有时会犯一个非常重要的错误,其中一些研究人员是创建其中一个系统的团队的一部分。该系统没有生成新图像,而是简单地从其训练数据中吐出其中一张图像。这种情况经常发生——在他们的测试工作中,他们在1,000张图像返回中发现了100多个实例。
这是一个问题,因为数据集通常是从互联网上抓取的,而且许多都带有版权。在测试过程中,该团队发现大约35%的复制图像带有版权声明。大约65%没有明确通知,但看起来可能属于一般版权保护法所涵盖的图像。
研究人员指出,大多数基于AI的图像生成系统都有一个处理阶段,在此阶段会添加噪声以防止图像从数据集中返回,从而推动系统创造新事物。他们还注意到,有时系统会在复制的图像中加入噪音,让人更难辨别它是不是复制品。
该团队得出结论,此类产品的生产商需要添加另一项保护措施以防止副本被退回。他们注意到一个简单的标记机制应该可以解决问题。