搜索
APP下载
扫码下载APP
关注我们
XHS
小红书
抖音
Facebook
X
YouTube
登录
注册
首页
热点资讯
互动论坛
同城服务
人才网
实用工具
搜索
每日签到
本地新闻
时事评论
华人世界
斯里兰卡资讯
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
本地新闻
全网热搜
华人世界
时事评论
中外新闻
斯里兰卡资讯
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
支票转换
便民电话
话费充值
实时汇率
每日签到
我的任务
道具商店
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
全球权威评测榜单BIRD:蚂蚁数科超越谷歌等公司位居第一 ...
菲龙网编辑部7
有 745 人收听 TA
157909
主题
157926
回复
184592
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/753
东西问|香槟加子弹!特朗普最新表态,折射多重挑战,包含多重意图
0/704
东西问|短评:赢,麻了?
0/941
人这一辈子,一定要去一趟都江堰!
0/860
八旬侨眷追忆父辈归乡路:人可漂泊,心不能离根
0/785
特朗普又自嗨“胜利”,没人买账
0/667
(投资中国)国际数据公司:对中国市场前景充满信心
0/936
千年石窟的“国际会客厅”:云冈何以成为世界读懂中华文明的窗口?
0/752
伊朗公布打击清单,瞄向美国科技霸权“七寸”
0/876
张雪机车一战封神背后 中国机车正重塑全球产业格局
查看TA的全部帖子>>
全球权威评测榜单BIRD:蚂蚁数科超越谷歌等公司位居第一
时间:2025-9-28 10:58
0
292
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
9月26日,据全球权威评测基准BIRD-Bech官网,蚂蚁数科的数据分析智能体Agentar-SQL超越AT&T(美国电话电报公司)、谷歌云、腾讯云、阿里云等诸多国内外厂商,位居全球第一。这也是中国公司在该榜单上取得的最高成绩。
BIRD-Bench是公认的全球最具权威性的自然语言转SQL评测基准,要求AI大模型将自然语言查询转换为结构化查询语言(SQL),并且在真实复杂的大规模生产级数据库中稳定执行。BIRD--Bench数据集覆盖金融、电力、医疗等37个行业场景,总量33GB,包含超过1万条高复杂度查询任务,是全球顶级AI团队展示技术实力的权威平台。
值得一提的是,蚂蚁数科Agentar-SQL在BIRD榜单的执行准确率排行榜(81.67分)以及执行效率榜上(77分)上均取得第一的成绩。这意味着蚂蚁数科在智能问数领域的技术创新实现全球领先。
据介绍,Agentar-SQL智能体基于蚂蚁数科的SQL大模型Agentar-Scale-SQL构建,旨在让用户可以通过自然语言轻松完成复杂的数据查询任务。它通过GSPO(组序列策略优化)强化学习训练方法,能够增强SQL内在推理,让大模型在推理阶段,深度思考SQL框架,避免潜在的逻辑错误,提升SQL逻辑准确性;此外,Agentar-SQL具备多轮反思修正的能力,让模型对生成的SQL进行多轮次的审视和修正,提升SQL语言的精准性;Agentar-SQL还通过独创的两阶段生成法,让大模型生成多个SQL候选,再对SQL进行两两PK的“锦标赛”,筛选出最优的SQL。
蚂蚁数科持续深耕AI大模型技术与应用,此前其自研的金融推理大模型Agentar-Fin-R1,在多项主流金融基准测试实现领先。专为新能源行业定制的能源电力垂类时序大模型在行业评测集上的发电量预测准确率超越谷歌(TimesFM-V2.0)、亚马逊(Chronos-Large)等行业主流的通用时序模型。
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
扫码添加微信客服
快速回复
返回列表
返回顶部