切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
多模态大模型多元路径中,智源提出一种收敛可能 ...
菲龙网编辑部7
有 744 人收听 TA
146961
主题
146978
回复
173066
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/27
李云泽:保险业要加快由追求速度和规模向以价值和效益为中心转变
0/25
从4.5%降至3.5%!振兴银行存量存款利率下调,**能否单方面暂停“加息”
0/28
央行科技司:正在加紧出台金融业数据跨境流动合规指南
0/29
厦门国际银行北京分行助力北京市银行业协会举办声誉风险管理培训
0/20
理财公司掀起降费大战,部分产品费率低至0
0/20
回应被罚50万元,国开行:将严格按照监管要求落实整改措施
0/28
东莞万江举行2024年“百千万工程”政策宣讲会,搭建政企交流桥梁
0/18
21理财私房课丨市场涨、投资亏,这一导致逆势亏损的“理财刺客”需警惕
0/20
大家财险因财务数据不实再领罚单,今年前三季度亏损1.7亿
查看TA的全部帖子>>
多模态大模型多元路径中,智源提出一种收敛可能
时间:2024-10-22 10:25
0
136
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
2024年中下旬,大模型赛道逐渐冷静,零星动态更新也主要聚焦于多模态领域。相较于大语言模型逐渐收敛的技术趋势,多模态领域技术路线暂时呈现多元化态势,如OpenAI Sora 基于Diffusion Transformer架构,生数科技的核心是使用一个统一的底层架构U-ViT来处理图像、3D、视频等多类复杂生成任务。
10月21日,智源研究院提出一种新训练范式,发布原生多模态世界模型Emu3,可实现视频、图像、文本三种模态的统一理解与生成。原理上,Emu3基于自回归技术路线(Autoregressive Model),只基于下一个token(输入数据的基本单位)预测,无需扩散模型或组合式方法,将图像、文本和视频编码为一个离散空间,在多模态混合序列上从头开始联合训练一个Transformer。
自回归技术路线属于多模态大模型领域的一种方法,核心思想是利用序列数据中的时间依赖性来预测未来的数据点。该类型模型中,不同模态数据共享同一套参数,可实现跨模态的关联和生成,无需人工设计的特征工程。同时因自回归技术路线的特点,在生成数据时模型必须按顺序进行,限制了并行计算的能力,导致生成速度较慢。也会遇到长期依赖问题,即模型难以捕捉序列中较远距离的依赖关系。
此前,谷歌与麻省理工学院(MIT)何恺明团队联合推进了一个新研究项目,推出名为Fluid的视觉自回归模型,采用连续token生成方式和随机顺序生成机制。国内市场中,智源研究院作为非营利性研究组织,率先推出自回归路线多模态模型,初衷为攻克大模型领域原始创新,目标在资源允许的情况下,在国际开源社区中展现中国技术实力与训练成果。目前智源研究院已开源了Emu3生成和理解一体的预训练模型以及相应的SFT训练代码,以方便后续研究和社区构建与集成。
Emu3之前,多模态生成任务主要由以Stable Diffusion为代表的扩散模型所主导,多模态理解任务由CLIP视觉编码器与LLM结合的组合式方法所主导。采访中,智源研究院院长王仲远对记者表示,Emu3证明了下一个token预测可以在多模态任务中有高性能的表现,有机会将基础设施建设收敛到一条技术路线上,为大规模的多模态训练和推理提供基础。
此前一位国内头部大模型企业人员对记者表示,大语言模型是多模态模型的“智商”基础,不论文生图还是图生视频模型,都需要大语言模型作为底座,再通过其他路径将不同模型连接,实现最终的多模态。王仲远对记者表示,Emu3有别于这类组合方法,采用的是原生统一的多模态技术范式。虽然多模态大模型训练所需资源并不比大语言模型要少,但可以极大程度上复用现有基础设施,包括技术范式与GPU集群等。
另外针对目前行业从训练端转向推理端的趋势变化,王仲远对记者表示,在技术路线收敛的趋势下,厂商会更积极地探索模型的落地场景。从乐观的角度来看,说明基础大模型已经达到一定的能力水平。另从谨慎的角度来说,训练转推理说明仅靠市场驱动,会令厂商陷入“追随者”的境地,不利于原始技术创新。
当下,王仲远称,研发多模态技术路线是比大语言模型更重要的时间节点,因为后者主要跟随已被验证的ChatGPT技术路线,而如今的多模态领域还处于非常早期。
至于Emu3模型的具体落地场景方向,王仲远表示,机器人大脑、自动驾驶、多模态对话和推理等都是潜在的应用方向。
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部