面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent 面对OpenAI的贴脸开大，谷歌以积极的态度回应：在深夜时分，我们推出了一款全新的多模态Agent。

面对OpenAI的贴脸技术的广泛应用，谷歌选择采取反击措施。

今天凌晨1点（北京时间），谷歌在2024年I/O大会上发布了一项重大举措——

更强大的多模态Agent助手Astra，能够实时理解镜头内外的世界。

多模态技术和长篇文本是本次发布的关键词，谷歌首席执行官桑达尔·皮查伊表示，多模态技术和长篇文本的结合，拓宽了我们能够提出的问题类型，也拓宽了我们能够获得的答案类型。

面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent_图2

Gemini系列模型卷起了长文本，1.5 Pro的上下文窗口将扩展到200万个token；新发布的Flash是轻量级模型，定价每100万个token35美分，远低于GPT-4o 5美元的价格。

Gemini系列模型卷起了长文本，Gemini 1.5 Pro的上下文窗口将扩展到200万个token；新发布的Flash是轻量级模型，定价每100万个token35美分，远低于GPT-4的价格。

搭载了Gemini芯片的谷歌家族产品也进行了华丽的升级：谷歌搜索现在支持通过输入视频提问，而且即将推出“AI概述”的结果页面；安卓系统手机内置了AI助手，只需在屏幕上画个圈就能进行全局搜索。

面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent_图3

AIGC方面，更加逼真的图像生成模型Imagen 3发布；全新的视频生成模型Veo针对Sora进行优化，可以生成时长超过60秒的高清视频……

皮查伊称目前有20亿用户在使用Gemini，Gemini时代刚刚拉开帷幕，谷歌希望最终让人工智能（AI）为每个人带来福祉。

“头号人工智能玩家”全程观看了直播，以下是我们整理的本次主题演讲的要点。

面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent_图4

多模态Agent来了，

Gemini精准打击GPT-40

众所期待的Agent（人工智能智能代理）终于来了。

谷歌在I/O大会上分享了新项目Project Astra，一个与GPT-4o相媲美的AI智能助手，能够像人一样深入了解周围复杂的环境，并在日常生活中提供即时的支持和帮助。

面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent_图5

比如在办公室里开着摄像头转一圈，人工智能（AI）可以通过图像识别技术，识别出画面中的物品，并且能够解释正在编写的代码，还可以判断所在的地理位置。

演示视频中，官方还展示了如何将Astra与增强现实（AR）眼镜相结合，这也成为其中一个亮点。戴上眼镜后，Astra的回答会实时显示在眼前，比如帮助修改白板上的流程图时，会用箭头指出修改位置。

面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent_图6

不过，与昨天OpenAI推出的GPT-4o相比，后者在演示中展现了更多令人惊喜的情感丰富的互动，虽然也有即刻网友评论，“感觉OpenAI想为每个人打造自己的专属舔狗”。

此前谷歌刚发布Gemini时，其多模态交互演示视频还需要经过剪辑，如今发布的Astra视频特意强调了是“一次性实时拍摄的”。

此前谷歌刚发布Gemini时，其多模态交互演示视频还需要经过剪辑，如今发布的Astra视频特意强调了是“一次性实时拍摄的”。这意味着Astra视频是在一次拍摄过程中实时录制的，没有经过后期剪辑的处理。

Agent是一种智能系统，可以理解多种形式的信息，提前规划多个步骤，并代表用户采取行动。从演示来看，Astra的延迟非常低，反应速度很快，互动也非常自然，就像一个身边的专家助理。

此外，谷歌还公布了Gemini系列模型的最新进展，这是谷歌推出的一系列模型。

Gemini 1.5 Pro的上下文窗口将扩展到200万个token，可以处理数百页文档，并向开发人员提供私人预览版。

Gemini 1.5 Pro的上下文窗口将扩展到200万个token，这意味着它可以处理非常大的文档，包括数百页的文档。此外，它还提供了私人预览版，供开发人员使用。

面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent_图7

面向全球开发者开放的Gemini Advanced则提供长达100万个token的上下文窗口，支持超过35种语言。

Gemini Advanced将在几周内推出全新的数据分析功能，预计将为用户提供更强大的数据分析工具和功能。此外，晚些时候还将增加旅行计划功能，用户可以通过高级推理技术创建个性化的行程，以满足不同的旅行需求。

面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent_图8

Gemini 1.5 Flash是一款全新推出的轻量级模型，专门针对低延迟和低成本任务进行了优化，以便更高效地进行部署。开发人员可以立即在Google AI Studio和Vertex AI中使用该模型，而且它支持的上下文窗口大小可以达到100万个token。

面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent_图9

Gemini的Gems功能将在今年夏天推出，类似于GPTs，可通过Prompt设置为不同专长的AI助理。

Gemini的Gems功能将在今年夏天推出，类似于GPTs，可以通过设置不同的提示来让AI助理具备不同的专长。

面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent_图10

同时，作为原生的多模态模型，Gemini的语音和视频能力迎来升级，即将上线的“Live”功能，其逼真程度可以说是媲美GPT-4o。

你能与Gemini进行更深入的双向对话，回答中可以随时打断，打开摄像头，Gemini就能看见和理解周围发生的一切。看来AI头号玩家们的理想AI助手都有电影《Her》的影子。

面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent_图11

面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent_图12

新增图像和视频搜索功能，

AI一键联网总结

随着ChatGPT、Copilot等人工智能产品在全球范围内的广泛应用，用户获取信息的方式正在悄然发生变化。本次谷歌的主打产品“谷歌搜索”率先进行了重大升级，引入了最新的智能代理助手。

在搜索时，你可以通过视频提问，比如录一段视频问道：“为什么这个视频无法上传？”

面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent_图13

Gemini能理解问题是为什么视频中的唱片不能固定在唱片机上，并迅速搜索文章、论坛、视频等全网信息，给出解决办法。

相比传统的搜索结果罗列，如今有了Gemini加持的谷歌搜索还将上线全新的搜索结果整合功能“AI概述”（AI Overviews）。

相比传统的搜索结果罗列，如今有了Gemini加持的谷歌搜索还将上线全新的搜索结果整合功能“AI概述”（AI Overviews）。这个新功能将会整合多个搜索结果，以提供更全面的信息概述。

比如在现场演示中，当我们想要在波士顿找到最好的瑜伽或普拉提工作室，并在结果中显示它们的入会优惠信息，以及与住址的距离。

面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent_图14

Gemini一次搜索就能获得所有信息，并以清晰有序的方式呈现出搜索结果页面。

据介绍，谷歌搜索升级后支持多步骤推理功能，可以将复杂的问题分解为多个简单的步骤，并确定解决问题的顺序。这样，原本可能需要花费数分钟甚至数小时才能得出的结果，现在可以在几秒钟内迅速完成。

“AI搜索概述”功能将首先在美国推出，并计划在未来覆盖10亿用户。

此外，在手机端，谷歌相册（Google Photos）即将推出的一项新功能“Ask Photos”，将为用户提供一个新的功能。

通过在图片上绘制一个圆圈，就可以使用Gemini搜索指定的对象，例如搜索带有车牌号的照片，或者询问“最近女儿游泳学得怎么样”，Gemini能够理解复杂的语境，并轻松找到相应的照片和视频。

面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent_图15

面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent_图16

AIGC模型上新，

Veo可生成超过60秒的高清视频

在图像、音乐、视频领域，谷歌分别发布了全新的图像识别模型、音乐流媒体产品和视频编辑工具。

图像生成器

谷歌推出了迄今为止最高质量的文本到图像生成模型Imagen 3，生成的图像细节更加丰富、真实，并且能够理解复杂的文本提示。

面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent_图17

生成第三张图片

音乐生成

谷歌和YouTube合作推出了Music AI Sandbox，这是一套专业的人工智能音乐创作工具，旨在帮助音乐创作者快速从零开始创作。

面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent_图18

视频生成器

谷歌发布了最新的视频生成模型Veo，只需一个文本、图片或视频提示，即可创建超过60秒的高质量1080p片段，支持多种电影风格，包括写实主义、超现实主义、动画等。或许未来每个人都会成为导演。

面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent_图19

以上这些AIGC模型，目前都可以在Google实验室（labs.google）上申请试用。

面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent_图20

谷歌全家桶AI升级，为用户提供更强大的人工智能功能。

安卓手机率先搭载人工智能助手

不出所料，升级后的Gemini 1.5 Pro将与更多的谷歌全家桶产品进行整合，包括谷歌邮件、谷歌会议、谷歌文档等软件，以及谷歌手机等硬件设备。

面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent_图21

比如Gmail中的Gemini能够通过一键操作来总结邮件内容，这样就不需要自己去查阅多个邮件和附件。Gemini会根据语境进行分析，并提供回复建议。

面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent_图22

向Excel中的Gemini提问，不用再费力编写公式，人工智能会自动进行数据分析，以图表形式给出计算结果。

面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent_图23

对于以人工智能为核心的手机，谷歌提到了三个关键应用：人工智能驱动搜索（上文提到的图片画圈搜索），系统自带的人工智能助手（目前安卓系统可用），人工智能保护隐私和安全（提示诈骗风险）。

谷歌表示，今年晚些将进一步扩展Gemini Nano的多模态功能，包括增加视觉、声音和口语输入。这意味着AI手机可以为更多视力障碍群体等用户提供更好的交流和生活支持。

皮查伊近日在接受《The Circuit With Emily Chang》专访时提到，在技术领域，如果你不不断进行创新以保持领先地位置，那么任何公司都将不可避免地走向衰败。

自2016年起，人工智能一直是谷歌公司的主要关注点，谷歌的研究人员发明了Transformer，也就是GPT中的T。当时，OpenAI开发的ChatGPT还处于初期阶段。

而到了如今的生成式人工智能时代，谷歌却屡次被OpenAI抢了风头，同时还面临着微软等竞争对手的严峻挑战。

从今年I/O大会主旨演讲发布了这么多新模型和产品升级来看，谷歌仍在坚持以人工智能为先的战略方向，无论是搜索还是人工智能游戏应用等，人工智能的前沿领域必然有谷歌的存在。

面对OpenAI的贴脸开大，谷歌原地回击：深夜推出多模态Agent 面对OpenAI的贴脸开大，谷歌以积极的态度回应：在深夜时分，我们推出了一款全新的多模态Agent。

云计算市场头部效应加剧，人工智能是否成为阿里云发展的新引擎？

OpenAI首席科学家离职，曾参与驱逐CEO奥特曼。

相关推荐

热门工具