切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
论文一窥苹果AI大计,Siri这回要变厉害了 ...
菲龙网编辑部7
有 744 人收听 TA
147021
主题
147038
回复
173128
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/41
理财情报局 | 再现0费率!年末银行理财开启“花式”营销,头部理财公司发起自购含权理财
0/41
新希望金融科技曹滔滔:坚守边界,以科技力量助力中小商业银行数字化
0/28
友邦人寿总经理张晓宇升任友邦保险集团区域首席执行官,余宏拟任友邦人寿CEO
0/26
金价连续5日上涨 触及2700美元/盎司
0/28
对话汽车流通协会周伟:银行或将继续在汽车金融市场保持优势
0/31
用户比例达到88%!手机银行已成金融服务主导渠道
0/31
视频 从整个ETF持仓量的变化来看,投资者对黄金的一个热情和策略有哪些调整?
0/31
平安健康险亮相“乌镇峰会” 科技向善助力普惠金融发展
0/27
视频 丨 黄金振荡期,投资者可以采取什么样的交易策略?
查看TA的全部帖子>>
论文一窥苹果AI大计,Siri这回要变厉害了
时间:2024-5-8 09:26
0
314
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
5月7日消息,尽管外界普遍认为苹果在AI领域的动作较慢,实际上,苹果一直在悄然筹备,并等待合适时机发力。
通过分析研究论文,美媒可以看出苹果的AI策略逐渐明朗化。苹果正致力于优化AI模型,使之更加精简和高效。通过在设备上直接处理数据并改进存储方式,苹果已显著加快了处理速度并提高了模型效率。此外,苹果还开发了名为EELBERT的系统,该系统能显著减小模型的体积,同时尽量保持性能尽量不受影响。
在提升用户体验方面,苹果特别关注如何改进Siri,使其更智能地处理语音指令和查询。研究团队正在开发一种新技术,使Siri无需唤醒词即可激活,同时优化对模糊查询的处理。
此外苹果也意识到了AI在健康监测、创意设计和音乐编辑等多个领域的应用潜力。
苹果最雄心勃勃的AI项目之一则是多模态大语言模型Ferret。它能够根据用户的指令专注并理解指定的对象及其周围环境。Ferret的潜力不止于此,它甚至能解析屏幕上的内容。这一技术可能彻底改变人们使用智能手机和Vision Pro的方式。
以下是翻译内容:
在人工智能领域的竞争中,常有人误以为苹果起步较晚。自2022年底ChatGPT风靡全球以来,多数竞争对手都在加速追赶。虽然苹果偶尔参与讨论人工智能,并推出一些相关技术的产品,但外界普遍感觉苹果似乎仅是试探,而非全力以赴。
然而,近几个月的传闻和报道揭示了苹果的战略布局。实际上,苹果一直在等待合适的时机。最近几周有消息称,苹果正在与OpenAI和谷歌等巨头探讨合作,旨在增强其人工智能功能,并积极开发自己的人工智能模型,名为Ajax。
通过仔细研读苹果发布的人工智能研究论文,可以感知到该公司的AI策略日渐成型。当然,我们应认识到,从研究到产品的转化是一个复杂且充满不确定性的过程。但随着苹果预计在今年六月的全球开发者大会(WWDC)上展示其人工智能技术,我们将至少能一窥这家科技巨头的远大蓝图,以及其如何将这些技术融入日常生活。
更小、更高效的模型
我们共同期待的无疑是更优秀的Siri体验!更出色的Siri即将到来!苹果和全球科技界的许多研究都基于同一个前提:大语言模型(LLM)将立即提升虚拟助手的智能。对苹果来说,提升Siri意味着必须迅速部署这些模型,并确保它们普遍可用以便为用户提供服务。
最新报道指出,在iOS 18中,苹果计划让所有人工智能功能都能在设备上完全离线运行。即便拥有庞大的数据中心网络和数千个顶尖GPU,构建一个功能全面且出色的模型也并非易事,而在智能手机这样有限的空间内实现这一目标,更是难上加难。因此,苹果需要展示其非凡的创新能力。
在一篇名为《闪存中的LLM:有限内存下的高效大语言模型推理》(LLM in a flash: Efficient Large Language Model Inference with
Limited Memory)的论文中,研究人员设计了一种创新系统来存储模型数据。这种系统将数据主要存储在设备的SSD而非RAM上。
研究人员写道:“我们已证明能够在SSD上运行的LLM大小是可用DRAM的两倍,推理速度在CPU上提高了4到5倍,在GPU上提升了20到25倍。”他们发现,通过巧妙利用设备上最便宜且易于获得的存储空间,可以使模型运行得更快更高效。
此外,苹果研究人员还开发了一个名为EELBERT的系统,该系统能够将大语言模型压缩到更小的尺寸,同时基本保持其性能不受影响。他们在谷歌BERT模型上的测试成功将数据压缩到原来的1/15,即只有1.2兆字节,且质量仅下降了4%。然而,这种压缩确实带来了一些延迟上的妥协。
总体而言,苹果正在努力解决模型世界中的一个核心矛盾:模型越大,其性能越好,但同时也变得更复杂、更耗电,运行速度更慢。与许多其他公司一样,苹果也在寻找在这些方面达到最佳平衡的方法,并探索实现这一目标的最有效途径。
Siri将变得足够好?
在探讨人工智能产品时,虚拟助手的功能常常成为焦点——它们能获取信息、提醒事项、解答疑问,甚至代替我们完成任务。因此,苹果的许多人工智能研究专注于一个核心问题:如何将Siri提升至完美水平?
苹果研发团队正在探索一种无需唤醒词即可激活Siri的新方法。想象一下,无需再说“嘿Siri”或“Siri”,设备就能直觉地感知到你是否在与它对话。研究人员承认:“这一挑战比简单的语音触发检测要复杂得多,因为缺少了标志语音命令开始的明确触发短语。”为了解决这一问题,另一组研究人员致力于开发更精确的唤醒词检测系统。另一项研究中,他们训练了一个模型,以更好地理解那些通常难以被虚拟助手理解的罕见词汇。
大语言模型的优势在于其理论上能更快地处理大量信息。例如,在唤醒词研究中,研究人员发现,不是刻意排除所有不必要的声音,而是将所有声音都输入模型,让模型自己判断哪些是重要的,这样做可以显著提高唤醒词的识别率。
一旦Siri捕获到用户的声音,苹果便竭尽全力确保其能更好地理解并进行交流。其中一个创新是名为STEER的系统,该系统通过判断用户是在提出后续问题还是新问题,来改善与虚拟助手的交互。
另一个研究利用大语言模型处理“模糊查询”,使得无论用户如何表达,系统都能准确理解其意图。研究人员指出:“在不确定情况下,智能对话代理可能需要主动提问,以减少不确定性,从而更有效地解决问题。”还有一项研究致力于使生成的回答更加简洁明了,研究人员利用大语言模型优化了虚拟助手的语言表达。
AI在健康、创作以及音乐领域的应用
每当苹果公开讨论人工智能时,其焦点总是如何让这项技术改善日常生活,而非仅仅展示其技术力量。因此,尽管Siri得到了广泛关注,特别是苹果正试图与如Humane
AI Pin、Rabbit R1这样的设备竞争,同时谷歌也在将Gemini集成到所有安卓系统中,苹果显然看到了人工智能在多个领域的巨大潜力。
在苹果关注的诸多领域中,健康领域尤其重要。理论上,大语言模型能帮助我们分析从各种设备收集的海量生物识别数据,并理解这些数据的深层含义。因此,苹果一直在积极探索如何收集并整合用户的运动数据,如何利用步态识别和耳机识别用户身份,以及如何追踪和解读心率数据。为推进这一领域的研究,苹果还创建并发布了名为“最大的基于多设备多位置传感器的人类活动数据集”,收集了50名参与者的详细生物传感数据。
苹果还视人工智能为创新工具。在一项研究中,研究人员与动画师、设计师和工程师进行了深入交流,开发了名为Keyframer的系统。此系统允许用户迭代地构建和完善设计。与传统图像生成不同,Keyframer并非仅仅依赖输入提示符来生成图像,而是提供了一个工具箱,用户可以根据个人喜好调整和完善图像的各个部分。这一系统可广泛应用于从Memoji个性化设计到苹果更专业的艺术工具等多个领域。
另一项研究描述了一个名为MGIE的工具,该工具允许用户通过描述修改意图来直接编辑图像,如“让天空更蓝”、“让我的脸看起来不那么奇怪”或“添加一些石头”,MGIE能将这些指令转化为明确的视觉意图,并实现合理的图像编辑。尽管初期实验并非完美无缺,但其潜力已经显现。
在Apple Music中,人工智能的应用同样值得关注。一篇名为《资源受限的立体声唱歌声音消除》(Resource-constrained Stereo Singing Voice Cancellation)的论文探讨了如何将歌曲中的人声与乐器声分离的技术,这一技术如果被苹果采用,将为喜欢混音的TikTok或Instagram用户提供强大的工具。
苹果硬件与AI相结合
本文作者敢断言,随着时间的推移,苹果将越来越多地将人工智能技术融入其产品和服务,特别是在iOS平台上。苹果不仅将在其自家应用程序中集成这些功能,还计划通过API向**开发者开放。苹果一直自豪于其硬件性能,尤其是相比普通安卓设备。将强大的硬件与注重隐私的人工智能结合使用,无疑将为苹果在市场竞争中带来显著优势。
然而,谈到苹果最大、最具野心的人工智能项目,不得不提Ferret。Ferret是一个多模态大语言模型,可以根据用户的指令,专注并理解用户指定的对象及其周围环境。这项技术是为了应对当前常见的AI场景而设计的,即向设备询问周围的世界信息。
但Ferret的潜能不仅限于此,它还能解析并理解屏幕上的内容。在Ferret的相关论文中,研究人员展示了它如何帮助用户导航应用程序,回答关于App Store评分的问题,以及描述他们所看到的内容等。这对提高可访问性有深远的意义,也可能彻底改变人们使用手机、Vision Pro和智能眼镜的方式。
虽然我们对这些技术的设想可能看起来颇为超前,但想象一下,这些技术如何与苹果正在开发的其他产品相结合:一个能够理解你需求的Siri,配合一个能看见并理解屏幕上所有内容的设备,将真正实现手机的自我操作。苹果不需要对所有产品进行深度整合,只需运行相应的应用程序并自动点击正确的按钮即可。
必须指出,这一切目前还只是处于研究阶段。如果从今年春天开始,这些技术能够顺利运行并应用到实际产品中,那将是一项前所未有的技术成就。我们预计在今年的WWDC上,将见证苹果在人工智能领域的重大公告。
苹果CEO蒂姆·库克(Tim Cook)在2月份已经透露了这方面的信息,并在本周的财报电话会议上基本确认了这一点。有两件事已经很清楚:苹果在AI竞赛中处于激烈的竞争状态,这些技术可能会彻底改变iPhone。想象一下,将来你甚至可能愿意频繁使用Siri,这将是苹果在AI领域取得的重大成就。(小小)
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部