1/15成本,实现AI水印新SOTA | 南洋理工大学&A*STAR

给AI生成的作品打水印,让AIGC图像可溯源,已经成为行业共识。

问题是,传统水印方法通常把图像当成一个整体处理,全局嵌入、水印提取一锅端,存在不少“短板”:

比如,图像局部区域被篡改,就可能导致全局提取失败,也无法定位水印所在具体区域。

又比如,无法只保护某个区域,如人脸、LOGO等。

针对这个问题,现在,来自南洋理工大学和新加坡A*STAR前沿人工智能研究中心等机构的研究人员,提出了一种全新的局部鲁棒图像水印方法——MaskMark

该方法不仅在多个任务中全面超越Meta出品的SOTA模型WAM,而且训练成本只有它的1/15。

1/15成本,实现AI水印新SOTA | 南洋理工大学&A*STAR

具体而言,MaskMark支持:

  • 多水印嵌入
  • 可精准定位篡改区域
  • 灵活提取局部水印
  • 自适应支持32/64/128比特

核心思路:让模型“看得见”水印在哪里

研究人员引入了一种掩码机制,训练时告诉模型“水印藏在这里”,教它学会精准地嵌入和提取。

他们给MaskMark设计了两个版本:

MaskMark-D(解码掩码)

  • 水印全图嵌入,但能定位水印位置,支持局部提取。
  • 即使部分图像被篡改,也能成功提取水印。
  • 适合用于整体图像保护、版权声明和内容验证。

MaskMark-ED(编码+解码掩码)

  • 水印只嵌入图像的特定区域(比如人脸或LOGO)。
  • 对小范围攻击更鲁棒,提取效果更好。
  • 适合局部敏感内容保护、隐私感知场景等。

其中核心技术流程,是训练和推理的双重优化

1/15成本,实现AI水印新SOTA | 南洋理工大学&A*STAR

MaskMark 的端到端训练流程主要包括四个阶段:

  1. 掩码生成(Mask Generation):
  2. 从四种预定义类型(全掩码、矩形掩码、不规则掩码、分割掩码)中随机选择或生成一个掩码M。
  3. 水印嵌入(Watermark Embedding):
  4. 编码器将水印比特嵌入原始图像(对于 MaskMark-ED可选择性地嵌入掩码M来指导嵌入位置),生成水印图像。此过程利用轻量级CNN处理水印比特,并结合U-Net结构及JND模块优化视觉效果。
  5. 水印掩码操作(Watermark Masking):
  6. 使用掩码M融合和,生成,即仅在掩码区域保留水印。随后对施加随机失真得到,并再次用M裁剪出仅含水印信号的区域。
  7. 水印提取(Watermark Extraction):
  8. 解码器从中预测掩码,并从中提取水印比特。解码器包含专门用于掩码预测的 U2-Net 和用于水印提取的U-Net及CNN模块。

1/15成本,实现AI水印新SOTA | 南洋理工大学&A*STAR

MaskMark推理时,解码器首先利用定位模块识别含水印区域,将非水印区域置零以减少干扰,然后从保留区域恢复水印,这对于小区域水印提取尤为重要。

在多项不同的任务上均表现出SOTA的性能

研究人员在多项不同任务上验证了MaskMark的性能。

首先,MaskMark能实现高提取精度

在全局水印任务中,即使在高视觉保真度(PSNR > 39.5, SSIM > 0.98)下,MaskMark-D和MaskMark-ED仍能保持近乎100%的比特准确率,尤其在各类值度量和几何失真攻击下表现优异,显着优于现有基线模型。

1/15成本,实现AI水印新SOTA | 南洋理工大学&A*STAR

在局部水印任务中,实验表明,当水印信号分布在图像的不同大小区域时,MaskMark仍能保持近乎100%的提取准确率,显着优于其他全局方法,并超过当前最先进的局部水印模型WAM。尤其在小面积嵌入场景中,MaskMark-ED展现出更加出色的表现。

1/15成本,实现AI水印新SOTA | 南洋理工大学&A*STAR

其次,MaskMark能实现精准水印定位

在不同水印区域比例和失真条件下,其定位性能(以IoU衡量)均优于EditGuard和WAM等方法。MaskMark-ED在小区域定位上更具优势。

1/15成本,实现AI水印新SOTA | 南洋理工大学&A*STAR

MaskMark还具备多水印嵌入能力

尽管并非为此专门训练,MaskMark-ED在单个图像中嵌入多达5个不同水印时,依然保持强大的提取和定位性能,优于WAM。

1/15成本,实现AI水印新SOTA | 南洋理工大学&A*STAR

高效性和扩展性方面,训练效率上,MaskMark仅需在单个A6000 GPU上训练约20小时,计算效率(TFLOPs衡量)比WAM高出15倍。

1/15成本,实现AI水印新SOTA | 南洋理工大学&A*STAR

消息长度方面,MaskMark可轻松扩展至不同比特长度(如32、64、128位),并保持较高性能,而WAM则受限于32位。

1/15成本,实现AI水印新SOTA | 南洋理工大学&A*STAR

另外,MaskMark还支持快速微调*

通过简单调整失真层或进行少量微调(如针对VAE自适应攻击,仅需20k训练步数),MaskMark即可适应不同鲁棒性需求和新兴威胁。

1/15成本,实现AI水印新SOTA | 南洋理工大学&A*STAR

论文链接:
https://arxiv.org/abs/2504.12739
代码链接:
https://github.com/hurunyi/maskmark

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/18403.html

(0)
人脑网的头像人脑网
上一篇 2025年6月2日 下午4:30
下一篇 2025年6月2日 下午4:31

相关推荐

  • 大模型玩不好数独?排行榜:o3 Mini High变异数独正确率仅2.9%

    大模型做数独,总体正确率只有15%??? 继出场自带十篇完整学术论文的史上首个“AI科学家”之后,Transformer作者Llion Jones又带着他的创业公司Sakana AI来搞事情了。 这次,Sakana AI公布了一个AI模型解决数独问题能力的排行榜 问题集是该公司推出的全新基准Sudoku-Bench,包含了从简单的4×4到复杂的9&…

    2025年5月28日
    700
  • DeepSeek新数学模型刷爆记录!7B小模型发现671B模型不会的新技能

    DeepSeek放大招!新模型专注数学定理证明,大幅刷新多项高难基准测试。 在普特南测试上,新模型DeepSeek-Prover-V2直接把记录刷新到49道。 目前的第一名在657道题中只做出10道题,为Kimi与AIME2024冠军团队Numina合作成果Kimina-Prover。 而未针对定理证明优化的DeepSeek-R1只做出1道。 让还没发布的R…

    2025年5月1日
    1600
  • 微软1bit LLM新研究:原生4bit激活值量化

    微软又有“1 bit LLM”新成果了—— 发布BitNet v2框架,为1 bit LLM实现了原生4 bit激活值量化,由此可充分利用新一代GPU(如GB200)对4 bit计算的原生支持能力。 同时减少内存带宽&提升计算效率 之前,微软持续研究BitNet b1.58,把LLM的权重量化到1.58-bit,显着降低延迟、内存占用等推理成本。 然…

    2025年4月29日
    3100
  • 智能车速度刷新:仅10个月,首个纯端侧大模型上车量产!

    端侧大模型圈子的《速度与激情》,就这么水灵灵地上演了。 坐标上海车展,在长安马自达新车发布之际,车上的智能座舱竟然成了大亮点之一。 因为速度着实有点太快——从零到量产,只花了10个月的时间! 要知道,这件事儿在汽车领域里面,一般都是要按“年”这个单位来计算。 此举可谓是一鸣惊人,一举刷新行业纪录,一步迈进了“月”的计量单位。 而且啊,搞出这件事的,还是车圈的…

    2025年4月25日
    1900
  • 基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯

    LIFEBench团队 投稿 你是否曾对大语言模型(LLMs)下达过明确的“长度指令”? 比如,“写一篇10,000字的长文,详细分析某个议题。”看似简单的要求,实际却往往让这些模型“力不从心”: 不是生成内容不足,就是重复啰嗦,甚至直接罢工拒绝生成。 一篇最新研究论文《LIFEBENCH: Evaluating Length Instruction Fol…

    2025年5月29日
    800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信