OpenAI让苹果决定让Siri智能化。

OpenAI让苹果决定让Siri智能化。_图1

在苹果公司取消了汽车制造计划后,转而投向生成式人工智能约三个月之后,苹果终于要在自己的终端产品上应用人工智能模型了。

长期跟踪苹果的彭博新闻社记者马克·古尔曼(Mark Gurman)当地时间5月26日爆料,经历了为期两个月的谈判后,苹果已与OpenAI达成协议,将后者的聊天机器人ChatGPT集成到iOS 18,双方的合作伙伴关系预计将于6月的苹果全球开发者大会(WWDC24)上官宣。由于不放心让OpenAI成为iOS一项主要新功能的单一供应商,苹果仍在努力与谷歌达成协议,希望Gemini可以作为一种选择。

此前,苹果已经推出OpenELM、MM1、Ferret、Ajax等多款AI模型,但这次古尔曼爆料的焦点并不在这些苹果自研AI模型上,似乎苹果更相信外部更成熟的AI模型及其产品。

然而,苹果在生成式人工智能的时代已经落后了。

去年5月,苹果公司CEO蒂姆·库克(Tim Cook)曾表示,AI的潜力“非常有趣”,但他也指出该技术存在“许多问题需要解决”。他解释说,在决定如何以及何时使用AI时,“深思熟虑非常重要”

在过去的一年里,华尔街的分析师一直在抱怨苹果缺乏令人信服的AI故事。然而,今年5月2日,在2024财年第2财季(今年第1季度)财报电话会的问答环节中,每一位提问的分析师都在询问有关AI的问题。尽管如此,除了之前的评论外,库克几乎没有透露苹果未来的AI功能或服务,也没有透露苹果如何利用它们赚钱。

“我不想在我们发布公告之前发表言论,”库克在电话会上说,“我们认为生成式人工智能是我们产品的一个关键机会,我们相信从理论上讲,我们拥有与众不同的优势。我们将在未来几周内进一步讨论这个问题。” 而库克近期在接受路透社采访时则表示:“我们仍然对生成式人工智能领域的机遇非常乐观,并且正在进行大量投资。”他指出,该公司过去五年已在研发上投入了1000亿美元。

尽管苹果在生成式人工智能时代起步较晚,但苹果依然拥有后发优势——庞大的用户基础、完善的产品生态以及软硬一体的范式。

在最近举办的「AI创生时代——2024甲子引力X科技产业新风向」大会的巅峰论坛上,出门问问的创始人兼CEO李志飞表示:“大公司和小公司完全不同。我认为对于大公司来说,后发可能是优势,特别是在构建大型模型方面。”

在生成式人工智能领域,一方面,人工智能似乎有先发优势:先行者可以利用数据飞轮;另一方面,人工智能似乎有后发优势:后来者的投入产出比更有利。

一直在人工智能领域占据先发优势的OpenAI,即将成为苹果公司发展中的重要一部分,而OpenAI也希望借助苹果公司的后发优势,寻求更大的增长机会。

1.“虽然有些晚,但还是及时”的决定

OpenAI让苹果决定让Siri智能化。_图2

OpenAI发布了GPT-4o之后,一些网友评论称,苹果的语音助手Siri可能会失业了。

作为一款“原生多模态大模型”,GPT-4o所有输入和输出都由同一个神经网络处理,这使得GPT-4o能够接受文本、音频和图像的任意组合作为输入,并输出文本、音频和图像的任意组合,是兼具了“听觉”“视觉”的多模态模型,同时还支持中途打断和对话插入,且具备上下文记忆能力。

根据OpenAI官网博客显示,GPT-4o在对话中对音频输入的平均响应时间为320毫秒,最短的响应时间为232毫秒,与人类的响应时间相当。

OpenAI在演示GPT-4o时使用的是iPhone,这表明OpenAI不仅仅是想开发一个APP,而是有意进入整个苹果生态系统,以突破用户增长瓶颈。

OpenAI让苹果决定让Siri智能化。_图3

GPT-4o发布之前,ChatGPT经历了大约一年的流量增长困境。随着GPT-4o的发布并接入ChatGPT,预计本月ChatGPT将创下新的网络流量纪录。

根据SimilarWeb的数据显示,今年5月的前三周,ChatGPT网站平均每日访问量约为7700万次,预计本月总访问量将超过23亿次,而之前的月访问量峰值为18亿次。

流量增加了,OpenAI自然希望抓住机会,苹果公司成为了它的重要目标。就像英伟达高级研究科学家Jim Fan所说的:“谁先赢得苹果,谁就赢得了胜利。”

然而,OpenAI对端侧的“觊觎”其实早有端倪。据科技媒体The Information去年秋天爆料,OpenAI CEO 萨姆·奥尔特曼(Sam Altman)与苹果公司原首席设计官乔纳森·伊夫(Jony Ive)正在合作开发一款AI驱动的消费设备。这家初创公司目前正在与一些风险投资界的巨头进行融资谈判,其中包括Emerson Collective和OpenAI的主要投资者Thrive Capital。

OpenAI最近刚刚摆脱了增长困境,而苹果公司则仍然在经历增长困境。

苹果公司最新发布的财报显示,今年前三个月实现营收为907.53亿美元,较去年同期下降了4%。

去年起,华为、荣耀、小米、OPPO等手机制造商开始积极尝试将人工智能大模型应用到实际中。如今,生成式人工智能已经成为手机产业链竞争的新焦点,而苹果在这一领域的进展显然落后于竞争对手。IDC中国区副总裁王吉平曾告诉媒体:“拥有人工智能支持的手机制造商增长速度更快。”

尽管有关苹果与OpenAI合作的传言不断,但ChatGPT接入GPT-4o所展现出的令人惊叹的实时交互效果和暴增的流量,或许是让苹果最终选择OpenAI作为合作伙伴的原因。

经过深思熟虑,苹果终于决定迈出AI模型落地的第一步。

2.大招背后的问题

OpenAI让苹果决定让Siri智能化。_图4

尽管距离苹果全球开发者大会(WWDC24)还有十多天,但外界已经迫不及待。许多人都在好奇,苹果和OpenAI的合作模式会是怎样的?

OpenAI让苹果决定让Siri智能化。_图5

WWDC24宣传海报,图片来源:苹果

今年苹果全球开发者大会(WWDC24)的中文海报主题是“大招码上来”,然而在苹果展示其重大举措之前,一些问题不容忽视。

尤其是模型在端侧和云侧的使用情况方面以及用户隐私的保护问题,是大家关注的焦点。

对此,Jim Fan在X上发帖进行了预测:

放弃Siri。OpenAI为iOS开发了更小型、纯设备上的GPT-4o,并提供付费升级以使用云服务;

将摄像头或屏幕传输到模型的原生功能,芯片级支持神经音频/视频编解码器;

与iOS系统级操作API和智能家居API进行深度集成。

Jim Fan认为,可以通过OpenAI为苹果设备训练端侧小模型,对部分付费用户提供云侧大模型的方式进行合作,进而灵活地解决用户隐私保护的问题。

古尔曼此前也发文称,苹果公司计划将自研高端芯片(如M系列芯片)置入云计算服务器中,用于处理计算难度大的人工智能功能,而相对简单的人工智能功能则直接在iPhone、iPad和Mac等终端设备进行本地处理。

不过,苹果想要在自己的设备上充分利用OpenAI最先进的大模型,还有以下三个方面的问题值得探讨。

首先是Siri使用的模型是什么?由于Siri是人机语音交互的入口,很多人好奇,苹果是会将Siri接入云端的GPT-4o模型,还是会将本地与云端模型混合使用,为Siri提供服务?

与国内手机厂商普遍采用云端处理语音助手的请求不同,Siri的唤醒和识别都是在本地进行的。然而,端侧模型对手机内存、CPU、GPU算力调度的要求更高,vivo副总裁、OS产品副总裁周围就曾直言:“性能方面,如果做输入法的出词推荐,两秒才能出一个词;功耗方面,大参数量级的大模型在端侧运行非常耗电。”

国内某手机厂商专家西风(化名)在一场专家调研会上表示,由于GPT-4o参数量巨大且依赖强算力,因此Siri在接入GPT-4o后,不会采用现有的端侧识别合作路线,而是会在云端调用识别功能。

他推测,苹果唤醒可能直接使用GPT-4o的云端模型,但具体任务的调用策略需要一个系统引擎来决定何时调用云端或本地模型。对于文本处理、生成等功能,本地模型就能胜任;但对于需要更高细腻度和准确率的多模态交互(如视频功能),就需要调用云端模型来解决。

西风的猜测与古尔曼的最新爆料基本一致。古尔曼透露,苹果的iOS 18和macOS 15都将包含特定的软件,用于确定任务是在设备端还是云端进行处理。

接近苹果的硅谷某大厂生成式人工智能开发者丽声(化名)则表示,由于苹果对用户隐私的极端重视,苹果与OpenAI在大型模型上的合作只可能在云端进行,不会让OpenAI为其定制端侧模型“OpenAI对iPhone内应用的调用权限,也需要根据用户信息的隐私程度来确定。”丽声对「甲子光年」说。

其次,双方合作后,具体产品形态和落地时间的问题是关键。

Tayside Investments Australia的资深分析师赵冬帅认为,苹果可能会先从个人电脑(PC)入手,先推出搭载了GPT-4o大模型的Macbook,以应对微软刚刚推出的“Copilot+PC”的挑战;同时他认为苹果会专门给GPT-4o定制一个硬件产品,以突出GPT-4o的语音和视觉交互功能。

而在西风看来,GPT-4o仍将会搭载在iPhone手机上,只是出现时间早晚的问题。他认为,GPT-4o的云端应用预计会在iOS 18发布时出现,而与硬件的充分融合则会在今年9月份的iPhone 17上体现,这也将带动国内厂商瞄准AI手机定义进行相应变革和参照。

丽声对于“苹果可能推出新硬件”的猜测持否定意见。在她看来,苹果的硬件战略是非常固定的,绝对不会因为和OpenAI合作就为其专门定制新的硬件。“苹果大概每六到七年才会出一个新的硬件产品,GPT-5可能明年年初就会发布,那如果按照这个逻辑,难道GPT每迭代一个版本,苹果就要为其定制一款硬件吗?”丽声说。

最后是接入OpenAI后用户高频使用带来的算力调度与算力成本问题。接入GPT-4o后,iPhone全球超过10亿的活跃用户会不会使苹果的云端交互变得不顺畅?苹果又该怎么解决接入GPT-4o后算力成本大幅提升的问题?

据《甲子光年》了解到,通常情况下,一家手机制造商每年需要向识别相关的大型模型供应商支付约8000万元左右的费用。如果苹果选择接入GPT-4o,预计支付的费用将达到亿元级别。

OpenAI让苹果决定让Siri智能化。_图6

GPT-4o当前的定价,图片来源:OpenAI开发者平台

或许也正是因为未来搭载大模型的iPhone太耗费算力、太贵了,苹果在尝试一种更加便宜高效的云端算力提供方法:直接将它的PC端芯片M2 Ultra放进云端服务器

这也意味着,为了更好地参与生成式人工智能的竞赛,苹果似乎瞄准了算力领域,打算自己动手提供云服务。

丽声对「甲子光年」证实了这一点。她表示,之前苹果做AI相关业务的时候,算力端只是通过购买显卡、使用AWS云服务解决,但是作为一家软硬结合的大厂,苹果在人力、财力上都不缺,很多苹果内部员工也都倾向于自己做云服务。因此她认为,苹果未来可能不会把大模型训练和推理所用的算力像以前一样交给AWS解决,而是自己下场做云。

除了云侧算力,端侧算力同样重要。目前主流端侧模型的参数量均在百亿左右,算力需要满足实时执行这样的模型的要求,便需要扩大芯片面积来提升性能。

「甲子光年」注意到,苹果在其最新发布的iPad Pro上搭载了M4芯片,这是目前苹果性能最强的芯片。M4芯片的神经处理单元(NPU)运算速度达到了每秒38万亿次(38 TOPS),而苹果的上一代芯片M3的NPU运算速度只有每秒18万亿次(18 TOPS)。

OpenAI让苹果决定让Siri智能化。_图7

M4芯片,图片来源:苹果

怎么理解这一数据?以自动驾驶需要的算力类比,如果要实现L2级自动驾驶,可能需要20 TOPS;L3级自动驾驶需要50—100 TOPS;L4级自动驾驶需要约2000 TOPS。也就是说,现在M4芯片的算力相当于L2.5级自动驾驶所需的水平。

与OpenAI的紧密合作,以及对云端和边缘端算力的布局,都显示出苹果在人工智能领域的战略野心。尽管双方合作尚未正式宣布,尽管苹果在中国市场份额出现下降,尽管OpenAI的大型模型尚未获得在中国落地的资质(有消息称,苹果公司正在与百度进行谈判,以便在苹果设备上使用百度的人工智能技术),但苹果和OpenAI将如何共同塑造下一代人工智能手机及其影响,这是安卓手机厂商不得不思考的问题。

3.苹果在市场上具有后发优势

OpenAI让苹果决定让Siri智能化。_图8

当我们考虑将苹果引入全球手机和PC厂商的竞争生态时,就会发现一个必须回答的问题:相较于其他已经在终端设备上使用大模型的厂商,苹果引入大模型的优势是什么?

OpenAI让苹果决定让Siri智能化。_图9

iPhone与Macbook,图片来源:苹果

苹果拥有庞大的用户基础和完善的产品生态,这是其明显的优势。根据苹果2024财年第1财季(2023年第4季度)的财报显示,全球活跃的苹果设备数量超过22亿台,包括iPhone、iPad、Mac等。而根据知名分析师霍勒斯·德迪乌(Horace Dediu)发布的数据,仅在2023年,iPhone就拥有了超过10亿的活跃用户。

一方面,苹果可以利用其拥有的用户数据来训练大型模型,从而增强自身模型的能力;另一方面,更强大的模型也能够为产品带来更多价值,通过更强大的功能吸引更多用户,从而在产品生态中形成一个不断增长的数据循环。

丽声则认为,苹果公司在制造大型模型时的最大优势在于软硬件的完美结合。

“许多国内厂商选择使用高通的芯片,但由于沟通成本和上机时间成本很高,这严重影响了产品的快速迭代。相比之下,苹果的自研芯片则避免了这些问题。此外,软硬一体的优势在于苹果不受现有大模型架构的限制,可以在自己的芯片上进行微调,从而设计出创新的架构。而使用高通芯片的国内厂商只能依赖现有的Llama模型架构。”丽声告诉「甲子光年」。

尽管OpenAI即将融入到苹果的软硬一体的范式中,成为苹果后发优势中的一环,但这并不是永远不变的。

丽声还透露,这次与OpenAI的合作只是苹果在人工智能和大型模型领域的一次“尝试”,在更遥远的未来,苹果很有可能放弃OpenAI,并开始全面采用自行研发的大型模型。

“苹果跟OpenAI的合作很可能不会一直延续下去,我认为这只是苹果的一次短暂的试水,把一些人工智能功能逐步整合进来,观察用户反馈,然后再开发一个属于自己的GenAI系统。毕竟要打造一个顶级且安全的大型模型,需要投入大量资源,苹果作为大公司肯定有能力承担这个成本,只是因为公司规模庞大,业务繁多,不可能在短时间内投入大量人力物力财力来开发大型模型。根据苹果近年来的产品和经营策略——既不支持开源也很少与外部合作,因此这次很可能也只是先试水。”丽声说。

软硬件一体的设计理念,为苹果产品带来了令人赞叹的交互功能。尽管在生成式人工智能时代,苹果进入较晚,但依然值得期待,毕竟有些交互体验和效果,只有苹果才能做出来。

苹果和OpenAI是否能够成功合作,苹果是否可以发挥后发优势打破增长困境、引领技术创新,还有待观察。

然而,对于所有智能终端制造商来说,他们迎来了新的竞争时代。