切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
斯里兰卡资讯
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
图像编辑太慢太粗糙?全新开源自回归模型实现精准秒级修 ...
菲龙网编辑部7
有 744 人收听 TA
155229
主题
155246
回复
181692
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/27
颜值算不上惊艳,却自带灵气,《父母爱情》四位女演员反差惊人
0/33
倪虹洁领衔主演,快手星芒短剧《小美满》呈现家的N种可能
0/35
狂追完《生万物》,想起一部港剧,宁夏实拍,立意领先内娱20年
0/28
24集年代大剧来袭,郭京飞、陈明昊主演,又要成追剧热门了
0/35
央八首播!38集民国大女主传奇剧,热依扎领衔丁勇岱助阵,阵容强
0/30
优酷首播!又一涉案黑马来袭!最高检出品!张国立、聂远领衔!
0/31
又一部好剧!40集喜剧赵本山、王小利领衔,要掀起追剧风暴了
0/31
央八首播!43集谍战大剧,刚播3集口碑爆表,王阳、王志文主演
0/35
给近期最好的短剧排名:横刀夺爱第9、18岁太奶奶第2、第一没争议
查看TA的全部帖子>>
图像编辑太慢太粗糙?全新开源自回归模型实现精准秒级修改
时间:2025-9-4 09:43
0
45
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
智象未来团队 投稿
量子位 | 公众号 QbitAI
AI图像编辑技术发展迅猛,扩散模型凭借强大的生成能力,成为行业主流。
但这类模型在实际应用中始终面临两大难题:一是“牵一发而动全身”,即便只想修改一个细节,系统也可能影响到整个画面;二是生成速度缓慢,难以满足实时交互的需求。
针对这些痛点,智象未来(HiDream.ai)团队开辟了新路径:提出全新的自回归图像编辑框架
VAREdit
。
它引入了视觉自回归(VAR)架构,能够在遵循指令的前提下做到“指哪打哪”,大幅提升编辑精准度与生成速度,推动图像编辑进入新的阶段。
模型与代码均已开源,具体链接可见文末。
全新自回归图像编辑框架VAREdit
智象未来提出的VAREdit将视觉自回归建模引入指令引导的图像编辑中,将图像编辑定义为下一尺度预测问题,通过自回归地生成下一尺度目标特征残差,以实现精确的图像编辑。
多尺度量化编码
:将图像表征
编码为多尺度残差视觉令牌序列R₁,R₂,…,Rₖ,其中Rₖ的空间规模(hₖ,wₖ)随着k的增大而依次递增;融合前k个尺度残差信息的连续累积特征可通过码本查询和上采样操作进行加和,表示为
视觉自回归预测
:基于源图像和文本指令条件,使用VAR Transformer主干网络对目标图像的多尺度残差视觉令牌序列进行预测,其概率函数为
。其中,主干网络预测
对应输入的视觉连续特征为经空间规模下采样对齐的融合特征
设计VAREdit的一个核心挑战是如何将源图像信息引入主干网络中,作为目标尺度生成的参考信息。
智象未来团队首先探索了两种组织方案:
全尺度条件
:将源图像的所有尺度融合特征
作为主干网络输入连续特征前缀。
该方法虽能提供逐尺度参考,但会使序列长度加倍,计算开销急剧增加,不适合高分辨率编辑;同时,多尺度特征可能带来冗余或冲突,反而影响编辑质量。
最大尺度条件
:将源图像的最大尺度融合特征
作为主干网络输入连续特征前缀。
该策略虽能缩短序列缓解计算压力,但会造成尺度不匹配;仅依赖最细粒度参考时,模型在预测粗粒度残差时往往难以适应,在预测粗粒度目标尺度残差的情形下尤其。
尺度对齐参考模块
对全尺度条件模型的自注意力分析发现:
在首层,注意力分布范围广,主要集中于较粗尺度特征,用于建立整体布局和长程依赖;
而在更深层,注意力逐渐局部化,呈现明显的对角结构,说明其功能已转向空间邻域的细化与局部优化。
上述探索促使智象未来提出一种混合方案——尺度对齐参考(SAR)模块:在第一层提供多尺度对齐参考,后续层仅关注最细尺度特征。
具体做法是在最大尺度条件模型中,将第一个自注意力层中的源图像条件输入进行各尺度匹配的下采样操作,得到对应尺度的参考特征
随后,在计算第k个目标尺度对应的自注意力表示时,由
替代
参与Key和Value的计算即可。
通过上述SAR模块优化,使得VAREdit能够更好地捕捉源图像与目标图像之间的多尺度依赖关系,同时实现最大尺度条件模型的生成效率。
基准测试表现出色
在业内权威的EMU-Edit和PIE-Bench基准测试中,VAREdit在CLIP与更能衡量编辑精准度的GPT指标上均表现突出。
其中,VAREdit-8.4B在GPT-Balance指标上相较于ICEdit和UltraEdit分别提升41.5%与30.8%,而轻量级的VAREdit-2.2B也取得了显著提升。
在速度上,VAREdit同样优势明显。
基于下一尺度预测机制,8.4B模型可在1.2秒内完成一张512×512图像的编辑,较同类扩散模型快2.2倍;2.2B模型则仅需0.7秒,在保持高质量的同时实现了即时编辑体验。
此外,VAREdit适用范围广,在大多数编辑类型上均取得最佳效果。虽然小模型在全局样式和文本编辑方面略有不足,但大模型有效弥补了差距。
视觉对比显示,VAREdit编辑自然、保真度高,过度修改更少。
值得一提的是,引入SAR模块后,模型在精准性指标上进一步提升,凸显其优化价值。
总的来说,VAREdit将下一尺度预测范式引入指令引导图像编辑框架,基于文本指令和量化源图像特征预测目标图像多尺度视觉残差。通过分析不同条件组织形式并引入新颖SAR模块,实现了图像编辑在精准性与效率上的提升。
智象未来团队表示,未来将继续探索新一代多模态图像编辑架构,推动指令引导图像生成技术向更高质量、更快速度、更强可控性发展。
GitHub: https://github.com/HiDream-ai/VAREdit
在线使用: https://huggingface.co/spaces/HiDream-ai/VAREdit-8B-1024
论文链接:https://arxiv.org/pdf/2508.15772
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
娱乐新闻
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部