GPT-4o的“类人”响应速度让Siri感到刺痛?

<a href=GPT-4o的“类人”响应速度刺痛Siri?_图1">

经济观察网 记者 钱玉娟 陈奇杰 北京时间5月14日凌晨,美国人工智能研究公司OpenAI召开春季发布会,正式发布了他们的最新旗舰模型GPT-4o。这次发布会只持续了不到30分钟,但却在人工智能领域引起了广泛的关注。

GPT-4o的“o”代表“omni(全能)”。OpenAI称,与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色,这款模型可以处理文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出。在英语文本和代码方面,GPT-4o的性能与GPT-4 Turbo模型相当,在非英语文本方面,GPT-4o的性能有显著提高。

GPT-4o的“类人”交互能力尤其备受关注。在发布会现场,OpenAI的工程师对GPT-4o表示“我第一次参加直播的发布会,有点紧张”,GPT-4o回应他说“要不你深呼吸一下”。在工程师稍作夸张的大力深呼吸后,GPT-4o很快说道“你这样不行,喘得也太大了”。

金山云人工智能业务负责人于游在GPT-4o发布后也进行了相关测试。他表示,GPT-4o在TTS(从文本到语音)方面的效果得到了明显的优化。他认为,OpenAI在实现虚拟个人助理(VPA)方面取得了真正的进展。

于游指出,近几年无论是学界还是技术界,“类人”应用在AGI(通用人工智能)领域高速发展,但将多模态和类人语音等功能完全整合到一个模型中,并且能够顺畅地展现出效果,这是OpenAI在工程化方面取得的一个非常重大的进步。

GPT-4o的音频响应速度已经达到和人类相似的水平。OpenAI称,GPT-4o可以在短至0.23秒(平均为0.32秒)的时间内迅速回应音频输入,与人类的响应时间相当。而使用语音模式与GPT-3.5进行对话的平均延迟为2.8秒,与GPT-4进行对话的平均延迟为5.4秒。

在浙江大学计算机系统结构实验室从事大模型相关研究的陈天楚全程观看了OpenAI的发布会。陈天楚称,GPT-4o弱化了编程等专业能力,尤其突出了语音模态能力,“是首个公开、有实用价值的端到端语音对话模型”。

GPT-4o的“类人”交互能力也引起了市场的关注,人们开始关注OpenAI在端侧技术方面的发展,并且对其与苹果公司合作的潜力充满了想象。

身在新加坡的Vibranium Consulting副总裁陈沛一早打开ChatGPT就收到了更新提示,他使用后的感受是“这次最大的优化是响应延迟”。陈沛称,以前使用ChatGPT基本上要1秒到2秒才能生成,如今流畅度进一步增加。

陈沛表示,GPT-4o的效果展示让人们看到OpenAI正在努力推动将大型模型应用于手机终端,因为在网页端,语音输入和生成的延迟并不是一个迫切需求。

这也是近期市场的关注焦点之一。日前,有报道称,苹果公司接近与OpenAI达成协议,将在苹果手机下一代操作系统iOS 18集成ChatGPT聊天机器人。苹果还与谷歌就授权Gemini聊天机器人进行了谈判。

2024年苹果全球开发者大会(WWDC 2024)将于6月10日至6月14日举行,并计划发布iOS18。

英伟达科学家Jim Fan在社交媒体发文猜测,OpenAI与苹果iOS的集成可能有三个层次:一是苹果放弃语音助手Siri,OpenAI为iOS提炼出更小型、纯设备上的GPT-4o,并可选择付费升级以使用云;二是设备将拥有将相机或屏幕传输到模型中的功能,可以对神经音频或视频编解码器进行芯片级支持;三是与iOS系统级操作API(应用程序编程接口)和智能家居API集成。

相关方均未就上述消息予以公开回应。但在发布会上,OpenAI称,苹果电脑用户将迎来一款专为macOS系统设计的ChatGPT桌面应用,用户可以通过快捷键“拍摄”桌面并向ChatGPT提问。

据于游称,OpenAI去年发布GPT-4后,其付费的高性能版本已经展现出了模型对图文、语音、视觉等各个方面的实时推理能力。现在OpenAI通过GPT-4o一个大模型将图文、语音、视觉交互进行了集中展示,为未来的应用层提供了更多的想象空间,机器可以通过识别语音和表情与人进行交互。

“VPA的载体可能会发生改变。”于游说,OpenAI试图引入一种新的交互逻辑,以改变人机智能交互的方式。无论是在硬件端还是软件端,都有可能出现一种新的载体,以满足人类对强人工智能的需求。