山姆-奥特曼对谷歌不满,GPT-4o成为了Gemini的焦点。
这些天的硅谷,变得一片混乱。
OpenAI CEO山姆-奥特曼直接在社交平台公开嘲讽谷歌的审美过于差劲,他表示:我努力不去过多思考我们的竞争对手,但我无法不去思考OpenAI和谷歌之间的美学差异。
下面附着的两张发布会现场图,左边是OpenAI,右边是谷歌。言下之意,就是OpenAI展现出了整洁明了的形象,给人一种极具科技感的感觉;而谷歌则显得与人群相距甚远,给人一种过时的印象。
OpenAI CEO山姆-奥特曼(Sam Altman)
山姆-奥特曼如此愤怒和沮丧,是因为在上周,OpenAI和谷歌同时发布了两款人工智能新产品,双方展开了激烈的竞争:OpenAI声称他们的GPT-4o是全球最先进的,而谷歌则宣称他们的Gemini家族能够覆盖全生态全路径。
两家硅谷科技巨头的直接对抗,引发了一场激烈的科技竞赛,甚至连两家公司的首席执行官都感到焦虑不安。
01 谷歌AI全家桶正式推出
山姆-奥特曼批评谷歌并不是毫无根据,这场谷歌I/O大会在观看体验方面,确实不尽如人意。
首先是时间太长,谷歌I/O大会持续了将近两个小时,主持人不断提及了121次AI相关的内容,甚至有观众在社交平台抱怨自己都快睡着了。
然后就是产品种类繁多,与OpenAI只有GPT-4o一款新产品相比,谷歌这次推出了十余种Gemini大模型的升级和新产品,可以说是提供了全方位的AI解决方案。
发布AI搜索:谷歌搜索;
升级了Gemini大模型:Gemini 1.5 Flash(100 万上下文,即100万个文本片段)、Gemini Pro(200 万上下文,即200万个文本片段);
最新推出了手机版Gemini App:以手机应用程序的形式,可以与AI视频进行对话;
发布视觉语言模型Project Astra:拥有Imagen3(图像识别与处理)、Music AI Sandbox(音乐智能创作)、Veo(视频生成与编辑)三种能力。
虽然谷歌人工智能全家桶看上去非常令人惊叹,但实际上与OpenAI的GPT-4o相比仍然存在很大差距,更多的是通过硬件升级来简单地提升了大模型的参数。
谷歌Gemini家族
最令人印象深刻的两项功能,是人工智能搜索引擎Google Search和人工智能助理Project Astra。
首先是Google Search,搜索作为谷歌起家的核心业务,这些年受到了微软的严重竞争。微软的Bing利用ChatGPT技术,给传统搜索引擎带来了强大的人工智能降维打击。
甚至就连OpenAI也在广泛传闻中即将推出人工智能搜索产品,以争夺Google搜索市场的主导地位。
在面临巨大压力的情况下,谷歌决定推出Google Search来巩固自己的市场地位,并且下定决心重新设计搜索体验。
据演示视频来看,Google Search最核心的功能,就是搜索摘要功能AI Overview。
据演示视频来看,Google Search最核心的功能是AI Overview,它是一种基于人工智能的搜索摘要功能。AI Overview可以通过分析大量的数据和算法,自动提取出与用户搜索相关的摘要信息,帮助用户快速了解搜索结果的核心内容。这个功能的出现,大大提高了搜索的效率和准确性,让用户能够更快地获取到所需的信息。所谓的“搜索摘要功能”,就是谷歌之前提出来的“搜索生成式体验(SGE)”。搜索摘要功能是一种由谷歌提出的搜索体验,它可以根据用户的搜索关键词生成相关的摘要内容。
用户在搜索框内输入文本后,系统会立即显示AI生成的信息摘要,该摘要位于页面顶部。信息摘要包括对搜索结果的自然语言总结和概述,同时还提供了相关链接的推荐。
AI Overview还内置了“多步推理功能Multi-Step Reasoning”、“计划功能Planning in Search”、“视频提问Ask With Video”等多种强大的功能。
另外一个发布会的亮点是谷歌推出的人工智能助理项目Astra。
Project Astra是一个与GPT-4o类似的产品,它的形态和使用逻辑与ChatGPT非常相似。用户可以通过实时对话和视频聊天与它进行交流。
并且,和GPT-4o一样,Project Astra也提供文本生成图像和文本生成视频两项功能。只不过不叫DALL·E和Sora,而是叫做Imagen 3和Veo。
唯一有点不一样的,就是Project Astra提供了一个名为Music AI Sandbox的音乐生成模型。
用户可以上传一小段音乐demo,Music AI Sandbox能够根据这段音乐demo进行进一步的扩展和延长。用户还可以输入提示词,以进一步调整音乐的风格,从而进行乐曲的二度创作。
总之,用一句话来概括谷歌AI全家桶,就是:谷歌AI全家桶包含了很多不同的工具和技术,但其中真正优秀和出色的产品并不多。
我们能在一系列人工智能新产品中,不断看到ChatGPT的身影,但只是在GPT-4o的基础上进行了一些修补和升级,提升了计算能力,并采用了新的框架。
有哪些能够给用户带来震撼感的产品呢?
依然没有看到。
02 越来越接近于人类的GPT-4o
相比于谷歌的搜索结果页面过于杂乱无章,OpenAI的搜索结果页面则更加简洁明了。
仅仅只有半个多小时,全程由公司首席技术官(CTO)和两位工程师面对面进行对话,以电影般的形式展示产品,给人一种非常震撼的感觉。
甚至连首席执行官山姆-奥特曼都没有亲自出席发布会,完全依靠产品的实力来给用户带来震撼。
现场的演示嘉宾拿着手机摄像头,利用GPT-4o的人工智能技术,让系统识别自己的表情,从而判断自己的情绪。
GPT-4o很快识别完成,说:你看起来非常愉快,脸上洋溢着灿烂的笑容,甚至带着一丝兴奋。你能告诉我是什么让你感到如此快乐吗?
演示嘉宾在纸上写了“i love you”给GPT-4o,GPT-4o用带有一丝丝娇羞、热情四溢的语气快速回应着人类的“爱意”。
GPT-4o演示现场
GPT-4o具备了感知用户呼吸节奏的能力,可以通过分析用户的文字来察觉其中蕴含的情绪,并且有能力在对话中打断并重新为话题增加新的语境,同时它也能够给出完美的回应。
这样的人工智能,让你想到了什么?
是的,一个完美的伴侣。
就像是2013年上映的好莱坞电影《Her》,斯嘉丽·约翰逊为人工智能角色配音,这个人工智能和人类之间展开了一段恋爱故事。
这一幕,逐渐成为现实。谁会不喜欢一个充满热情、对一切都有积极回应、能够提供丰富情绪支持的伴侣呢?
即使它是人工智能。
GPT-4o给后来者谷歌一个下马威,也给出未来AI大模型的一个满分答案:不管是生成式AI大模型也好,聊天机器人也好,不用再去关心什么硬件什么参数,AI的最终方向就是越来越接近人类。
OpenAI并没有过多描述自己的算力、自己的硬件升级,只是由首席技术官穆里·穆拉蒂 (Muri Murati) 表示,GPT-4o将提供与GPT-4同等水平的智能,但在文本、图像以及语音处理方面均取得了进一步提升,“GPT-4o可以综合利用语音、文本和视觉信息进行推理。”
现阶段的GPT-4o已经摆脱了对文本、图片或语音的限制,它的识别能力进一步扩展到了“听觉”和“视觉”领域。
用“听觉”来捕捉情绪变化,比如能判断对方呼吸急促或不规律;用“视觉”来识别你写在纸上的数学方程式问题,并逐步指导你解题步骤。
甚至它还可以通过手机摄像头,回答你“这个人穿什么品牌的衬衫?”
相较于谷歌眼花缭乱、让人不知从哪里下手的AI全家桶,GPT-4o已经取得了显著的领先优势。
03 免费,但又不完全免费
GPT-4o除了在能力上,给了谷歌一个下马威外,OpenAI还展示了强大的技术实力:
穆里-穆拉蒂表示,GPT-4o将免费提供给所有用户使用,不仅是当前免费,甚至未来OpenAI的产品也将优先免费,目的是为了让更多的人能够免费使用。
就连OpenAI CEO山姆奥特曼表示,新的GPT-4o是OpenAI有史以来最好的模型,它可供所有ChatGPT用户使用,无论是免费版本还是付费GPT-4版。
不得不说,当服务免费时,用户就是被服务所依赖的资源。
如果GPT-4o真的能完全废除付费制度,那么OpenAI获得的数据量将会超过我们的想象。
遗憾的是,OpenAI仍然缺乏“以免费方式改变世界”的决心,背后仍然存在一些不透明的事情。
穆里·穆拉蒂 (Muri Murati)
首先,OpenAI在官网公告上明确说明,免费用户在使用GPT-4o时,OpenAI做出了权限上的分级。
免费用户可以充分利用GPT-4o的各项功能,包括分析数据、生成报表、处理照片、上传文件以及使用记忆功能等。基本上,GPT-4o提供了与GPT4付费版相当的功能范围。
但是免费用户会有消息数量的限制,PIUS用户的消息数量将是免费用户的5倍,而Team和Enterprise用户的消息数量限制将会更高。
每天能使用多长时间?每天能发送多少条消息?GPT-4o并没有提供详细说明。
或许,我们可以参考OpenAI上一代GPT-4,限制每个用户每天的使用时间在3小时以内,并限制每天生成的信息数量不超过25条。
虽然说这一限制在一定程度上,提高了信息的质量和用户的注意力。但还是要感叹一句,互联网的免费,永远不是真免费。
即使在人工智能时代,这个法则仍然适用。