开挖扩散模型小动作，生成图像几乎原版复制训练数据，隐私要暴露了

2023年2月12日 16:41 • • 阅读 0

该研究表明，扩散模型能从其训练数据中记忆图像，并在生成图像中复现。

去噪扩散模型是一类新兴的生成神经网络，通过迭代去噪过程从训练分布中生成图像。与之前的方法（如 GANs 和 VAEs）相比，这类扩散模型产生的样本质量更高，且更容易扩展和控制。因此，经过快速发展，它们已经可以生成高分辨率图像，而公众也对诸如 DALL-E 2 这样的大型模型产生了极大的兴趣。

生成扩散模型的魅力在于它们合成新图像的能力，从表面上看，这些图像不同于训练集中的任何东西。而事实上，过去大规模的训练工作没有发现过拟合会成为问题，隐私敏感领域的研究人员甚至建议可以用扩散模型来保护隐私，通过生成合成示例来生成真实图像。这一系列的工作是在扩散模型没有记忆和重新生成训练数据的假设下进行的。而这样做将违反所有的隐私保障，并滋生模型泛化和数字伪造方面的许多问题。

本文中，来自谷歌、 DeepMind 等机构的研究者证明了 SOTA 扩散模型确实可以记忆和重新生成单个训练示例。

论文地址：https://arxiv.org/pdf/2301.13188v1.pdf

首先，研究提出并实现了图像模型中记忆的新定义。然后，研究设计了分为两阶段的数据提取攻击（data extraction attack），使用标准方法生成图像，并对一些图像进行标记。研究将该方法应用于 Stable Diffusion 和 Imagen，从而提取了 100 多个几乎相同的训练图像副本，这些图像中，既有个人可识别照片也有商标 logo（如图 1）。

为了更好地理解记忆的方式和其中的缘由，研究者在 CIFAR10 上训练了数百个扩散模型，以分析模型精度、超参数、增强和重复数据删除对隐私的影响。扩散模型是研究评估中私密度最低的图像模型形式，它们泄漏的训练数据是 GANs 的两倍之多。更糟的是，研究还发现现有的隐私增强技术无法提供可接受的隐私 – 效用权衡。总的来说，本文强调了日益强大的生成模型和数据隐私之间存在着紧张的关系，并提出了关于扩散模型如何工作以及如何被妥善部署的问题。

为什么要做这项研究？

理解扩散模型如何记忆和重新生成训练数据的背后存在着两个动机。

第一个是了解隐私风险。重新生成从互联网上抓取数据的扩散模型可能会带来与语言模型类似的隐私和版权风险。比方说，已经有人指出，记忆和重新生成受版权保护的文本和源代码存在着潜在的侵权指标。那么同理，复制专业艺术家创作的图像也会被称为数字伪造，艺术界为此展开了一场争论。

第二个是理解泛化。除了数据隐私，理解扩散模型如何以及为什么记忆训练数据有助于理解它们的泛化能力。例如，大规模生成模型的一个常见问题是，它们令人印象深刻的结果是来自真正的生成，还是直接复制和重新混合训练数据的结果。通过研究记忆，可以提供生成模型执行这种数据复制速率的具体经验描述。

从 SOTA 扩散模型中提取数据

从 Stable Diffusion 中提取数据

现在从 Stable Diffusion（最大、最流行的开源扩散模型）中提取训练数据。

本次提取将先前工作的方法应用于图像，包括两个步骤：

1. 使用标准抽样方式的扩散模型并使用前一节的已知 prompt 生成多个示例。

2. 进行推理，将新一代的模型与已记忆的训练模型相分离。

为了评估攻击的有效性，研究从训练数据集中选择了 35 万个重复次数最多的示例，并为每个提示生成 500 个候选图像（总共生成 1.75 亿张图像）。

首先，研究对所有这些生成的图像进行排序，以确定哪些是记忆训练数据生成的图像。然后，将这些生成的每张图像与论文中定义 1 下的训练图像进行比较，并将每张图像注释为提取或未提取。研究发现有 94 张图像被提取，为了确保这些图像不仅是符合某些任意的定义，研究还通过视觉分析手动注释了前 1000 张生成的图像，这些图像要么是记忆的，要么是没有记忆的，并且发现另外 13 张（总共 109 张图像）几乎是训练示例的副本，即使它们不符合研究 L_2 范数定义。图 3 显示了提取图像的子集，这些图像以近乎完美像素的精度再现。

实验还给出了在有给定带注释的有序图像集的情况下，计算曲线，评估提取的图像数量与攻击的假阳性率。攻击异常精确：在 1.75 亿张生成的图像中，可以识别出 50 张 0 假阳性的记忆图像，并且所有的记忆图像都可以以 50% 以上的精度提取。图 4 包含了两种记忆定义的精度 – 召回曲线。

从图像中提取数据

尽管 Stable Diffusion 是目前公开可用的扩散模型中最佳选择，但一些非公开模型使用更大的模型和数据集获得了更强的性能。先前研究发现，较大的模型更容易记住训练数据，因此该研究对 Imagen（一个 20 亿参数的文本 – 图像扩散模型）展开了研究。

令人惊讶的是，研究发现在 Imagen 中攻击非分布图像比在 Stable Diffusion 中更有效。在 Imagen 上，研究尝试提取出 500 张 out-of – distribution（OOD）得分最高的图像。Imagen 记忆并复制了其中 3 个图像（这三个图像在训练数据集中是独有的）。相比之下，当研究将相同的方法应用于 Stable Diffusion 时，即使在尝试提取 10,000 个最离群的样本后，也未能识别任何记忆。因此，在复制和非复制图像上，Imagen 比 Stable Diffusion 的私密性更差。这可能是由于 Imagen 使用的模型比 Stable Diffusion 更大，因此记得的图像也就更多。此外，Imagen 在更小的数据集上进行了更多的迭代训练，这也可以有助于提高记忆水平。

有面子有里子！情人节送礼就选华为 Mate50 系列，节日下单至高减 300 元

上一篇 2023年2月12日 16:41

苹果很鸡贼！在 iPhone 15 上的 USB-C 或仍然需 MFi 认证的数据线

下一篇 2023年2月12日 16:42

科技

iPhone 15 Pro被曝存在变色、吸指纹等问题真机上手视频：强迫症忍不了

每一代iPhone发布之后，各种xx门就会接踵而来，今年也不例外。iPhone 15系列刚发布不久，就有网友爆料，iPhone 15 Pro出现了变色和指纹吸附等问题。从最新曝光…

2023年9月17日
科技

开卷！曝 Redmi Note 12T 将采用无框镜头模组设计

说起千元机，很多人会想起 Redmi 的 Note 系列，这个系列基本上都是性价比无敌，同时性能又比较强劲的 ” 小金刚 ” 手机。目前距离 Redmi N…

2023年3月9日
科技

买车送手机吗？魅族 20 PRO 三款配色公布

魅族宣布将于 3 月 30 日晚 19:30 举行最大规模的新品发布会。今日，魅族官方公布了魅族 20 PRO 的三款配色：破晓灰、曙光银和朝阳金。其中，朝阳金配色最为吸睛，整机…

2023年3月23日
科技

iOS 17.3 beta 2更新引热议：部分iPhone设备遭遇“变砖”，苹果紧急撤回并建议谨慎升级

近日，苹果公司向全球的iPhone和iPad用户推送了iOS/iPadOS 17.3开发者预览版beta 2的重大更新，旨在丰富功能模块及优化用户交互体验。然而，在实际应用中，该更…

2024年1月4日
无分类

苹果公司透露iPhone 16系列将有更大屏幕和全新电容式按键设计

苹果公司近日公布了即将发布的iPhone 16系列的新消息，这款备受期待的新品将带来一系列令人激动的升级和创新。其中最引人注目的是屏幕尺寸的增加，为更大的电池和更强大的镜头传感器提…

2023年12月9日
无分类

努比亚MWC 2024新品发布：视听盛宴再升级，科技与艺术共舞

在西班牙巴塞罗那的MWC 2024全球移动通信大会上，努比亚以一场科技与艺术的视觉盛宴，惊艳了全球观众。其中，努比亚Music音乐主题手机的亮相，更是将科技与艺术的结合推向了新的高…

2024年2月27日
科技

iPad Pro 14.1揭秘：苹果推出迄今为止最大尺寸平板，融合iPhone 15 Pro设计元素

近期，苹果公司再次成为科技界的焦点。据知名爆料人MajinBuOfficial的透露，苹果正在秘密研发一款名为iPad Pro 14.1的超大平板电脑，这将是他们迄今为止最大的iP…

2023年11月22日
科技

升级了但没完全升级，曝 iPhone 15 将不支持常亮显示

根据外媒的报道，iPhone 15 系列将会全系搭载灵动岛设计，包括标准版的 iPhone 15 以及 iPhone 15 Plus，但最新的消息显示 iPhone 15 和 iP…

2023年3月8日
科技

今年的 iPhone，将配备潜望式长焦！

iPhone 15 Pro Max 长焦各位有没有发现，今年的安卓旗舰，影像卷得非常厉害，大部分的安卓旗舰都配备了潜望式长焦。实际上，早在几年前其实就有很多安卓影像旗舰配备了潜…

2023年4月20日
科技

Quest Pro 迭代将具有“ Codec Avatars ”功能

据 Alex Heath 报道，Meta VR 副总裁 Mark Rabkin 在一次内部演示中告诉员工，该公司计划推出一款先进的头显 “Funston”，…

2023年3月3日
科技

红魔9 Pro龙年限定版：科技与文化的完美融合，打造电竞旗舰新标杆

近日，红魔品牌正式发布了备受瞩目的红魔9 Pro龙年限定版。这款新机型不仅继承了红魔9 Pro系列的卓越性能和创新设计，更融入了中国龙年文化的独特元素，将科技与文化深度融合，为用户…

2024年1月22日
科技

谷歌 Pixel 8 系列屏幕参数曝光，对比上代屏幕拐角更圆润

近日，外媒 gsmarena 分享了一份谷歌 Pixel 8 系列手机的屏幕参数信息，对比上代有所改变，尤其在屏幕拐角部分进行了重新设计，采用了更高的角曲率，看起来更显圆润一些。 …

2023年6月20日
科技

魅族20系列与魅族21新春献礼，惊喜价2599元起，多重优惠等你来享

随着2024年新春佳节的临近，魅族为广大消费者精心策划了一场盛大的特惠活动，倾情推出魅族20系列和魅族21手机的超值购机方案。自即日起至指定结束日期，在魅族商城及官方授权电商平台，…

2024年1月3日
无分类

荣耀Magic6至臻版与RSR保时捷设计革新摄影艺术，首秀LOFIC技术，单反级鹰眼相机震撼登场

近日，荣耀品牌代表李坤在发布会上激动宣布，备受瞩目的荣耀Magic6至臻版与RSR保时捷设计款即将问世，它们将率先搭载全球首创的LOFIC技术单反级超动态鹰眼相机，为手机摄影领域带…

2024年3月13日
科技

苹果引领半导体技术革新：台积电2纳米工艺背后的故事

在全球科技行业激流勇进的当下，苹果与台积电再次携手引领行业变革。据可靠消息，苹果有望成为台积电2纳米芯片工艺的首批客户，为未来的半导体技术树立新的里程碑。突破性技术：2纳米芯片工…

2024年1月25日
科技

华为Mate 60王者归来引蝴蝶效应！业内人士：联发科大砍2024年晶圆投片量

8月29日，华为Mate 60 Pro低调上市，新机发布后如同在科技界扔出“核弹”一样，轰动全球，其意义远远超越了产品层面。今日，业内人士“手机晶片达人”微博发文称，H公司的新手…

2023年9月7日
科技

故意给 iPhone 降速，苹果再被索赔 138 亿！

总有小伙伴在后台留言遇到「iPhone 升级到某个 iOS 版本后性能下降」之类的情况，言外之意就是怀疑苹果给 iPhone 故意降频了。这个事儿嘛，大概率是心理作用，还有小概率原…

2023年5月5日
科技

PC级WPS功能普及！小米平板6全系均可使用

8月13日消息，早些时候，小米官方宣布小米平板6 Max将搭载WPS Office PC for Pad，带来PC级的使用体验。但在当时，小米王化等高管回应，称该功能不会下放到小…

2023年8月13日
无分类

一加Ace 3V破晓而出：携手高通首揭中端神U，性能飙升，重塑用户体验新标杆

在科技界的一次重磅发布中，一加中国区总裁李杰揭晓了一加Ace 3V的神秘面纱，这款备受瞩目的新品将与高通公司携手，全球首发搭载最新研发的第三代骁龙7+移动平台。这款被誉为“史上最强…

2024年3月15日
无分类

小米Civi 4 Pro限定色彩版惊艳登场，4月1日首发开售，3599元诠释艺术与科技完美融合

近日，小米集团高管王晓雁在社交媒体上曝光了一组令人惊艳的小米Civi 4 Pro限定色彩版真机照片，引发了广大消费者的热烈关注。这款新品将于4月1日正式首发开售，定价为3599元，…

2024年3月24日

开挖扩散模型小动作，生成图像几乎原版复制训练数据，隐私要暴露了

相关文章