切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
业内:过去数月老款AI芯片降价,大模型培训成本降60% ...
菲龙网编辑部7
有 744 人收听 TA
147021
主题
147038
回复
173128
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/75
理财情报局 | 再现0费率!年末银行理财开启“花式”营销,头部理财公司发起自购含权理财
0/72
新希望金融科技曹滔滔:坚守边界,以科技力量助力中小商业银行数字化
0/41
友邦人寿总经理张晓宇升任友邦保险集团区域首席执行官,余宏拟任友邦人寿CEO
0/44
金价连续5日上涨 触及2700美元/盎司
0/43
对话汽车流通协会周伟:银行或将继续在汽车金融市场保持优势
0/46
用户比例达到88%!手机银行已成金融服务主导渠道
0/44
视频 从整个ETF持仓量的变化来看,投资者对黄金的一个热情和策略有哪些调整?
0/45
平安健康险亮相“乌镇峰会” 科技向善助力普惠金融发展
0/41
视频 丨 黄金振荡期,投资者可以采取什么样的交易策略?
查看TA的全部帖子>>
业内:过去数月老款AI芯片降价,大模型培训成本降60%
时间:2024-1-24 11:52
0
217
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
1月24日消息,众所周知,开发大语言模型(LLM)成本高昂。这不仅包括模型本身的研发,还有在云端运行这些模型的费用。以人工智能初创公司Anthropic为例,云端运行模型的成本几乎占了该公司上个月收入的一半以上,这还未算上训练模型的成本。
然而,最近的技术进步有望降低大语言模型的开发和运行成本。目前尚不清楚这是否足以将大语言模型开发转变为高利润的软件业务,但它应该有助于缓解许多最紧迫的成本问题。
以Writer为例,这家初创公司专门为企业开发人工智能工具。该公司联合创始人兼首席技术官瓦西姆·阿尔谢赫(Waseem Alshikh)表示,过去三到四个月,一些老式人工智能芯片(如英伟达A100 GPU)的价格不断下滑,帮助他们将模型培训成本降低了约60%。此外,英伟达还优化了软件性能,帮助开发者在这些芯片上更快地训练和运行大型模型。
但与此同时,随着云计算服务提供商推出更多H100芯片,Writer开始使用更多英伟达新款芯片来训练大语言模型。阿尔谢赫指出,这些较新的芯片价格高昂,但在模型训练方面比A100更快。
开发者还利用各种新的培训技术和配置来降低成本。像GPT-4这样的大型语言模型实际上是由多个“专家”模型组成的,而非一个庞大的模型,每个模型专攻不同主题。这种混合专家系统(Mixture of Experts,简称MoE或ME)的计算效率更高,因为查询仅触发模型的某些部分,而非整个模型。
其他技术,如量化和大语言模型的低阶自适应,使得训练和调整模型的成本更低,且对模型性能影响微乎其微。
大语言模型开发者还找到了更高效利用硬件的方法。谷歌研究人员估计,在训练GPT-3时,OpenAI的GPU大约有80%的时间处于闲置状态,等待数据输入。换句话说,它并未充分利用GPU资源。然而,GPU经销商Together的首席科学家特里·道(Tri Dao)表示,通过采用名为FlashAttention-2的不同技术,可将闲置时间缩短至30%左右。众多开发者已开始利用这项技术,包括法国人工智能初创公司Mistral。
尽管人工智能开发人员拥有众多降低成本的工具,但并不意味着他们会全都使用。OpenAI、Anthropic等前沿模型的开发商追求卓越的芯片、人才和数据资源,因此他们可能会暂时搁置利润率目标。
例如,Facebook母公司Meta首席执行官马克·扎克伯格(Mark Zuckerberg)宣布,该公司计划在今年年底前获得3.5万个H100 GPU(总成本超过70亿美元)。这表明,实力雄厚的公司正不惜重金购买尖端芯片,即便老款GPU价格更为亲民。
此外,我们切勿忽视获取新数据以训练大语言模型的成本。像OpenAI和苹果等公司从出版商那里获得内容授权的费用看似微不足道,但未来可能会大幅增长。尽管大语言模型正逐步生成用于新模型的“合成”训练数据,但仍有许多高质量信息是它们无法复制的。(小小)
延伸阅读
研发汽车10年,苹果认清现实,技术降级!
美股周二:中概强势反弹,马云增持,阿里大涨近8%
产品发布拖延,越来越多谷歌AI员工选择离职创业
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部