搜索
APP下载
扫码下载APP
关注我们
XHS
小红书
抖音
Facebook
X
YouTube
登录
注册
首页
热点资讯
互动论坛
同城服务
人才网
实用工具
搜索
每日签到
本地新闻
时事评论
华人世界
斯里兰卡资讯
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
本地新闻
全网热搜
华人世界
时事评论
中外新闻
斯里兰卡资讯
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
支票转换
便民电话
话费充值
实时汇率
每日签到
我的任务
道具商店
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
元象开源650亿参数高性能大模型,无条件免费商用 ...
菲龙网编辑部7
有 745 人收听 TA
157961
主题
157978
回复
184652
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/172
东西问丨美伊以战事真是“文明的冲突”吗?
0/150
东西问丨习主席的一封信如何激励法国青少年学习中文?
0/183
人这一辈子,一定要去一趟雅安!
0/155
IMF总裁:中东战事将导致全球经济增速放缓
0/189
三大分歧仍在,美伊谈判“面临风险”
0/212
新设境外国资工作局,将带来哪些变化?
0/170
事关我国产供链安全 专家解读新规四大看点
0/168
外交部:中国的成功不是偶然,更不是靠“欺骗”,而是中国制度优势的体现
0/161
商务部:中方对中欧商签双边经贸安排一直持开放态度
查看TA的全部帖子>>
元象开源650亿参数高性能大模型,无条件免费商用
时间:2023-11-7 11:12
0
587
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
11月6日消息,元象XVERSE公司宣布,开源650亿参数高性能通用大模型XVERSE-65B,无条件免费商用。
元象XVERSE创始人姚星表示:“面对研发时间紧、算力持续短缺等挑战,团队依靠丰富经验,三个月内研发出多款高性能7B、13B模型,并最早为社区献上一个‘大有可为’的65B模型,为研究、商业及生态创造三重价值。”
据介绍,XVERSE-65B底座模型在2.6万亿Tokens的高质量数据上从头训练,上下文窗口扩展至16K,支持中、英、俄、法等40多种语言。
元象坚持“高性能”定位,提升了65B三方面能力: 一、理解、生成、推理和记忆等基础能力,到模型的多样性、创造性和精度表现,从优异到强大;二、扩展了工具调用、代码解释、反思修正等能力,为构建智能体(AI Agent)奠定技术基础,提高模型实用性;三、显著缓解7B、13B中常见且可能很严重的幻觉问题,减少大模型“胡说八道”,提高准确性和专业度。
据悉,元象大模型系列均为全链条自研,涵盖多项关键技术与研发创新:
复杂分布式系统设计:借鉴团队研发腾讯围棋AI“绝艺”、王者荣耀AI“绝悟”等大系统上的丰富经验,自研高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台与框架协同等关键技术,打造高效稳定的训练系统, 千卡集群峰值算力利用率达58.5%。
全面提升性能:65B训练中采用FlashAttention2加速计算, 3D并行基础上采用虚拟流水线(virtual pipeline)技术,降低较长流水线产生过高气泡率,提升计算推理效率; 上下文窗口长度从8K逐步提升到16K,使其不仅能出色完成复杂任务,包括长文理解、长文生成和超长对话,还拓展了工具调用、代码解释及反思修正能力,能更好构建智能体(AI Agent)。
提升训练稳定性:因计算量庞大,通信拥塞、芯片过热或计算节点故障成为65B训练常态,初期出现过一周最高八次故障的情况。通过集群基础设施运营、资源调度、训练框架和调度平台协同等持续优化,元象打造出高稳定、低中断、强容错的训练系统,将每周有效训练率提升至98.6%。
此外,在接近1.6万亿Tokens的模型训练中期,损失函数产生了NaN值,可能导致训练中断。通常情况下,业界一般会在分析后删除与之相关的数据区间。而团队根据经验判定这是模型自然演化,选择不删除数据,直接跳过相关参数更新,最终 NaN值 问题解决。后期对参数值、激活值、梯度值等中间状态的进一步分析表明,该问题可能 与模型最后一层transformer block激活值的最大值变化有关,并会随最大值的逐渐降低而自行解决。
为确保业界能对元象大模型性能有全面、客观、长期认知,研究人员参考了一系列权威学术测评,制定了涵盖问答、理解、知识、推理、数学、代码等六个维度的11项主流权威测评标准,将持续使用并迭代。
XVERSE-65B在与国外标杆对比测评中,部分指标超越、综合性能媲美GPT3.5;全面超越开源标杆 Llama2-70B和Falcon-180B ;与GPT4仍有差距。
据介绍,元象大模型可在Github、Hugging Face、魔搭ModelScope等多平台搜索“XVERSE”下载,简单登记后即可无条件免费商用,能满足中小企业、科研机构和个人开发者绝大部分的应用与迭代需求。
元象同时提供模型训练、推理、部署、精调等全方位技术服务,赋能文娱、金融、医疗等各行各业,帮助在智能客服、创意写作、精准推荐等多场景打造行业领先的用户体验。2023年10月, 腾讯音乐宣布与元象大模型建立战略合作 ,共同推出lyraXVERSE加速大模型、全面升级其音乐助手“AI小琴”,未来还将持续探索AI与3D前沿技术。(一橙)
延伸阅读
摩尔线程创始人张建中:将进行岗位优化 中国GPU不存在“至暗时刻”
百世要私有化了,收购者联盟包括阿里和菜鸟
少林寺方丈释永信造访 Meta 总部,谈“禅宗遇到 AI”
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
扫码添加微信客服
快速回复
返回列表
返回顶部