切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
杀疯了!阿里开源最强推理模型,一周三模型干翻全球开闭 ...
菲龙网编辑部7
有 744 人收听 TA
154228
主题
154245
回复
180643
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/46
古装剧《凡人修仙传》今日开播,用东方审美和高燃特效颠覆仙侠世界想象力
0/47
【扫剧日历】今晚19:30 《扫毒风暴》:毒影弥漫,正邪激烈交锋
0/45
《春梦》:时代的欲望与恐惧
0/48
哈哈哈GM普通话还可以哦‼️有点惊喜
0/51
哈哈哈哈看了那么多次路途终于等到正片啦‼️
0/46
西班牙Netflix封神新剧《寡妇游戏》
0/49
两年后杨洋再战暑期档!《凡人修仙传》能靠东方审美、高燃特效突破仙侠套路吗?
0/47
全程心跳加速!这部韩国神作真的绝了‼️
0/51
仙侠剧《凡人修仙传》开播,杨洋金晨主演,我想说:该剧能成爆款
查看TA的全部帖子>>
杀疯了!阿里开源最强推理模型,一周三模型干翻全球开闭源天花板
时间:2025-7-28 09:38
0
42
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
智东西
作者 李水青
编辑 漠影
智东西7月25日报道,昨日晚间,阿里又又又开源了!
阿里通义千问团队正式推出
Qwen3-235B-A22B推理模型的升级版本:Qwen3-235B-A22B-Thinking-2507
。
▲Qwen3-235B-A22B-Thinking-2507开源页面截图
该模型拥有
235B
参数,激活参数为
22B
,支持
256K
上下文,在编程、数学、知识、推理、人类偏好对齐等多项能力测评中得分
比肩Gemini-2.5 pro、o
4-mini
等顶尖闭源模型,
大幅超越DeepSeek-R1
等开源模型,创下全球开源模型
SOTA
(最佳性能表现)。
▲Qwen3-235B-A22B-Thinking-2507的部分测评表现
一周之内,阿里已用
三款最新模型
横扫全球权威测评,分别斩获基础模型、编程模型、推理模型等主流领域的
三项全球开源冠军
。其中,7月23日开源的最强编程模型Qwen3-Coder-480B-A35B-Instruct在全球开发圈引起了一阵热潮,连推特、Hugging Face的创始人及CEO都发文推荐。
▲推特创始人杰克·多尔西点赞Qwen3-Code
接连开源动作背后,阿里通义千问已成“最听劝”团队。Qwen非思考模型的推出就是接受了开发者的建议。“经过与社区沟通和深思熟虑,我们决定停止使用混合思考模式。相反,我们将分别训练Instruct和Thinking模型,以获得最佳质量。”Qwen团队在X平台上写道。
▲Qwen非思考模型的推出就是接受了开发者的建议
“开发者需要什么,千问就开源什么”,面对如此听劝的通义千问团队,催更成为开发者的常态。昨日Qwen3-235B-A22B-Thinking-2507刚刚发布,就有开发者在千问相关负责人Junyang Lin的X平台下催更这一模型的更小尺寸版本,对此Junyang Lin也下场回复:“下周是 ‘flash’周 。”
▲千问相关负责人回应开发者催更
目前,Qwen3-235B-A22B-Thinking-2507已在魔搭社区、Hugging Face开源,采用极宽松的Apache2.0开源协议,人人均可免费下载商用。用户也可以通过QwenChat体验该模型。
▲用户可在QwenChat选择使用该模型
QwenChat体验地址:
chat.qwen.ai
魔搭社区地址:
https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507
Hugging Face地址:
https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507
一、全面赶超DeepSeek,比肩OpenAI o3
昨夜,Qwen3-235B-A22B-Thinking-2507模型一经发布,立马在全球范围内收获了极高热度。社交平台X上不少网友点赞分享,有网友称:“这还是我第一次看到名副其实的‘思考模式’!”有人赞叹:“基准测试成绩令人印象深刻!”
▲X网友评价Qwen3-235B-A22B-Thinking-2507
来看看测试情况。如下图所示,
最亮眼
的应该是
编程能力
的LiveCodBenchV6的成绩,从5月发布的Qwen3的
55.7分
提升到了现在
74.1分
。另外知识能力测试SuperGPQA和推理能力测试HMMT25也都是目前的最高分。
▲Qwen3-235B-A22B-Thinking-2507测评情况(图源:Hcores LLM Arena)
具体来看,
在知识方面,
Qwen3-235B-A22B-Thinking-2507在MMLU-Redux、GPQA、SuperGPQA的测试中
均超越了DeepSeek-R1-0528
,并且得分逼近OpenAI o3、Gemini-2.5 Pro等顶尖闭源模型。
在推理方面,
Qwen3-235B-A22B-Thinking-2507在AIME25、HMMT25、LiveBenc、HLE几项测试中得分都
碾压Deepseek-R1-0528、OpenAI o3、Claude4 Opus Thinking
。
在编码方面,
Qwen3-235B-A22B-Thinking-2507在LiveCodeBench v6、CFEval、OJBench等测试中
全面超越Deepseek-R1-0528、OpenAI o4-mini、OpenAI o3
。
在一致性方面,
Qwen3-235B-A22B-Thinking-2507在WritingBench测试中
赶超了开源模型Deepseek-R1-0528以及OpenAI o3、Gemini-2.5 Pro等闭源模型
,在IFEval、Creative Writing v3等测试方面也接近OpenAI o3、Gemini-2.5 Pro的水平。
在Agent方面,
Qwen3-235B-A22B-Thinking-2507在BFCL-v3、TAU2-Retail等测试中得分接近OpenAI o3,
赶超了Deepseek-R1-0528、OpenAI o4 mini、Gemini-2.5 Pro
。
在多语言能力方面,
Qwen3-235B-A22B-Thinking-2507在MultiIF、PolyMATH测试中也取得了最好成绩,
超越Deepseek-R1-0528、OpenAI o4-mini、OpenAI o3、Gemini-2.5 Pro、Claude4 Opus Thinking等模型
。
▲Qwen3-235B-A22B-Thinking-2507的测评成绩(对于OpenAI o4-mini和o3,测试使用中等推理,但标有*的分数除外,这些分数是使用高推理生成的。)
“Qwen势头强劲,正在征服所有人!”一位开发者在社交平台X上称,“Qwen3 235B的搜索能力极致思考模式可不是闹着玩的。它解决了ChatGPT o3-pro上个月破解的难题。”
▲X网友评价Qwen3-235B-A22B-Thinking-2507体验
这个难题描述了一个文字游戏:“Sabrina Carpenter 的那首歌的歌名是什么?当你读出你对这个问题的正确单句回答中每个单词的最后一个字母时,这首歌的歌名也会出现。”如下图所示,Qwen3-235B-A22B-Thinking-2507准确猜出了答案。
▲X网友的试用案例截图
值得一提的是,本次阿里还推出了为三款最新Qwen3模型大规模RL(强化学习)训练提供支持的算法——组序列策略优化 (GSPO)。
通义千问团队相关负责人称:“相较于GRPO,GSPO在稳定性、效率、性能和底层友好度方面均具有显著优势,并且从根本上自然地解决了强化学习中大型MoE模型训练的稳定性问题。”
▲组序列策略优化 (GSPO)技术报告截图
论文地址:
https://huggingface.co/papers/2507.18071
二、一周开源三连冠,剑指闭源巅峰
短短一周时间里,阿里通义千问团队已连续开源了三款模型,横扫全球开源模型权威测评,成绩直追顶级闭源模型。
先是
7月22日
,阿里更新旗舰版Qwen3模型,推出
Qwen3-235B-A22B非思考模式(Non-thinking)的更新版本
,命名为
Qwen3-235B-A22B-Instruct-2507
。
新的Qwen3模型通用能力显著提升,在指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等方面众多测评中,超过Kimi-K2、DeepSeek-V3等顶级开源模型以及Claude-Opus4-Non-thinking等领先闭源模型。
▲Qwen3-235B-A22B-Instruct-2507测评成绩
而后在
7月23日
,阿里开源了其
最新一代旗舰编程模型Qwen3-Coder-480B-A35B-Instruct
。这是该团队迄今为止
最强大的开源智能体编程模型
,拥有480B参数,激活参数为35B,原生支持256K上下文。借助Qwen3-Coder,刚入行的程序员一天就能完成资深程序员一周的工作,生成一个品牌官网最快只需5分钟。
在基准测试中,Qwen3-Coder在编程和智能体任务上拥有不错的性能,于Agentic Coding(智能体编程)、Agentic Browser-Use(智能体浏览器使用)和Agentic Tool-Use(智能体工具调用)三类任务中获得了开源SOTA,超过Kimi K2、DeepSeek V3等开源模型和GPT-4.1等闭源模型,并可与Claude Sonnet 4这一以编程能力著称的模型相媲美。
除了模型之外,Qwen还开源了一个由Gemini Code分叉而来的智能体编程命令行工具——Qwen Code,这一工具进行了定制提示和函数调用协议的适配,能更充分的释放Qwen3-Coder在智能体编程任务上的能力。
7月23日当日,阿里云还宣布Qwen3-Coder未来一个月5-7折优惠,256K-1M上下文长度,输入价格10元/百万tokens,输出价格100元/百万tokens;紧接着今日,阿里云宣布通义灵码上线Qwen3-Coder,免费使用不限量。
Qwen3-Coder的开源引发硅谷和全球AI圈热议,获得推特创始人杰克·多尔西、Perplexity CEO阿拉温德·斯里尼瓦斯、a16z合伙人马克·马斯克罗等科技领袖盛赞。HuggingFace CEO克莱门特·德朗格更是多次力荐。
同时,阿里千问API在海外知名模型API聚合平台OpenRouter的调用量暴涨,突破千亿级tokens,在OpenRouter趋势榜上包揽全球前三,成为当下最热门模型。
结语:中国开源力量,改写格局
开源浪潮正重塑大模型竞争规则。阿里通义千问以“三日三冠”的强势表现,不仅横扫开源战场,更在多领域直逼闭源天花板。
此次连续开源顶尖模型,为开发者提供了对标闭源巨头的“开源平权”利器。从硅谷开发者的狂热调用,到全球社区登顶的硬核战绩,阿里正以开源为支点,撬动大模型竞争新范式。中国力量,正在改写全球大模型产业格局。
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部