切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
为机器人赋予空间智能,UIUC团队构建多模态具身智能的3D ...
菲龙网编辑部7
有 744 人收听 TA
146961
主题
146978
回复
173066
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/47
李云泽:保险业要加快由追求速度和规模向以价值和效益为中心转变
0/45
从4.5%降至3.5%!振兴银行存量存款利率下调,**能否单方面暂停“加息”
0/48
央行科技司:正在加紧出台金融业数据跨境流动合规指南
0/48
厦门国际银行北京分行助力北京市银行业协会举办声誉风险管理培训
0/37
理财公司掀起降费大战,部分产品费率低至0
0/37
回应被罚50万元,国开行:将严格按照监管要求落实整改措施
0/45
东莞万江举行2024年“百千万工程”政策宣讲会,搭建政企交流桥梁
0/38
21理财私房课丨市场涨、投资亏,这一导致逆势亏损的“理财刺客”需警惕
0/39
大家财险因财务数据不实再领罚单,今年前三季度亏损1.7亿
查看TA的全部帖子>>
为机器人赋予空间智能,UIUC团队构建多模态具身智能的3D推理系统
时间:2024-9-19 09:34
0
69
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
能够在三维场景中进行空间感知和推理决策是机器人和具身 AI 区别于二维图像智能的重要能力,也是现有人工智能模型的严重局限之一。
基于这个观察,美国伊利诺伊大学厄巴纳-香槟分校(UIUC,University of Illinois Urbana-Champaign)团队研究并证明了空间感知在三维多模态推理中的重要性,并结合大视觉语言模型提出了强化空间智能的新方法。
相关论文发表在 2024 年 IEEE 国际计算机视觉与模式识别会议(CVPR,Conference on Computer Vision and Pattern Recognition)上。
论文的第一作者满运泽,本硕博先后就读于浙江大学、美国卡内基梅隆大学和 UIUC。他曾在 Adobe 实习过,如今又在 NVIDIA 从事科研实习工作,目前主要研究多模态大模型和具身智能。
图丨满运泽(来源:满运泽)
他表示,本次工作在很大程度上基于对人类智能的观察。
具体来说:
他和团队发现相比于机器学习模型,人类在回答三维空间中的复杂感知、规划任务和推理任务的时候,会自然而然地从自身所处的情景出发,来做第一人称的理解和判断。
这种智能使得人们可以很轻易地理解“左右”“远近”“上下”等空间相对概念,并能在复杂的多物体多模态环境中工作。
他和同事把这种智能叫做情景感知。它是空间智能的其中一种,代表着一个具身智能体能够理解自身所处环境,并能依此进行空间推理的能力。
这也和美国斯坦福大学李飞飞教授所强调的 Spatial Intelligence 有着密切相关性。
研究中,该团队通过初步实验证明:现有的人工智能模型并不具备情景感知能力。
首先,在情景估计任务中,现有模型的表现仅仅比随机猜测高出一点点而已。
其次,他们还发现有无情景输入,对于情境相关的问答效果完全没有任何区别,这一点其实与人类直觉是完全相悖的。
而在本次研究伊始,他们注意到了 SQA3D 这个数据集,这是一个鲜少有人注意但却非常独特和重要的数据集。
此前通过使用这个数据集,人们一般用来研究 3D 问答效果。但是,很少有人将这个数据集用于研究情景估计和基于情景的问答效果。
而通过分析领域内的已有工作,并通过与人类智能对比,他们将研究方向定为情景感知。
随后,课题组开始针对现有模型的步骤进行分析和可视化,借此找出导致效果变差的成因。
随后发现问题主要出现在两方面:
其一,当采用端到端直接估计的架构时,会导致模型无法利用估计出来的情景,来辅助问答任务和推理任务。
其二,采用回归估计(Regression Estimation)的方法,会导致模型无法在巨大的三维空间中准确定位到某一位置和某一方向向量。
为此,该团队设计出一款名为 SIG3D 的模型,针对上述两方面问题进行优化,这不仅能让三维搜索空间变小,也能显著提升准确度。
同时,课题组尽可能多地寻找合适的数据集来验证猜想,并再次通过最终结果和中间结果的可视化,来验证所优化模块的效果。
最终,相关论文以《情境意识在三维视觉语言推理中的重要性》(Situational Awareness Matters in 3D Vision Language Reasoning)为题发在 CVPR 2024 上 [1]。
图丨相关论文(来源:CVPR)
对于相关论文审稿人一致认为:
首先,本次论文研究动机十分明确,并解决了帮助智能体理解三维环境这一问题,在方法上具有一定创新性。
其次,研究人员进行了充分的实验和广泛的消融研究,在两个问答任务和一个情景估计任务进行了评估。
并在所有三个任务上均展示出最优越的性能,尤其在情境估计任务上取得了显著提升。
最后,研究中对于鸟眼(BEV,Bird's-Eye Vie)俯视角和情境理解的探讨,为 3D 推理和具身 AI 等应用做出了一定贡献。
对于游戏、居家机器人、自动驾驶车辆、以及增强现实/虚拟现实等混合现实产品的智能体系统,本次成果将能带来一定的潜在帮助。
而拥有一个更好的情景感知能力,意味着模型将能拥有更好的 3D 空间理解能力。
它将能明白自己在空间中的位置和方向,因此会天然地拥有更强的避障能力、导航能力、推理能力、交流能力以及多模态问答,从而催生更安全、更智能的 AI。
(来源:CVPR)
另据满运泽介绍,这是他的第一篇正式向视觉语言多模态方向转型的论文。
“论文定题的初期曾经历一些阵痛。由于脱离了自己之前熟悉的领域,所以交流方式也要进行更新,还有无数的相关文献要等着阅读,因此精神压力一直比较大。”他说。
但是,研究途中满运泽逐渐体会到豁然开朗的感觉,也让他产生了很多关于视觉语言模型的其他想法。
他说:“从对这个方向产生兴趣、追随兴趣、摸黑探索、以及豁然开朗,很像《桃花源记》中的一句话‘山有小口,仿佛若有光(新的方向)。便舍船,从口入。初极狭,才通人(转型的阵痛)。复行数十步,豁然开朗’。”
而基于本次成果:
首先,他希望可以继续拓展模型的研究情景感知能力在 7B 模型、13B 模型、乃至 40B 模型中,是否仍会带来推理效果的提升。
其次,他打算研究场景从室内拓展到室外,在更空旷和更复杂的交互中验证模型。
最后,他还会研究视觉模型对于 3D 多模态推理的重要性,尤其是探究图像和视频中的 2D 基础模型的泛化能力,能否被拓展到 3D 模型中。而这个工作的相关论文,已经在 arXiv 预印本平台上发表。
图丨相关论文(来源:arXiv )
满运泽的长期研究目标是:希望开发一个视觉感知优先的多模态信息系统,从而为具身 AI 和机器人构建一个能够准确表示周围世界的动态三维世界模型,并能在进行复杂推理和决策的同时,与人类和环境产生交互。
参考资料:
1.https://arxiv.org/pdf/2406.07544
排版:刘雅坤
01/
02/
03/
04/
05/
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部