OpenAI再次对线谷歌，谁才是赢家？

作者：陈玲丽时间：2024-05-16 来源：电子产品世界

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

2月份，谷歌发布了多模态大模型Gemini 1.5 Pro，直接将性能拉到支持百万Token的业界新高。但在同一天OpenAI发布了文生视频工具Sora，抢尽了谷歌 Gemini的几乎所有风头。

本文引用地址：//www.cazqn.com/article/202405/458804.htm

这一次OpenAI再次精准“定位”，上周突然宣布在谷歌I/O大会前一天抢先召开发布会，而谷歌I/O大会的日期早在数月前就已经定档。OpenAI发布的最新大模型GPT-4o（o代表着Omnimodel全能模型），提前引爆了AI大模型的关注热度，分散了谷歌即将发布AI新品的话题度。

OpenAI更自然的人机交互

在OpenAI的最新发布会上，虽然没能见到GPT-5，但GPT-4o的出现仍然惊艳，GPT-4o中的“o”代表“Omni”，是一个基于GPT-4之上的多模态大模型。OpenAI称，它向更自然的人机交互迈进了一步，因为它接受文本、音频和图像的任意组合作为输入内容，并生成文本、音频和图像的任意组合输出内容。

GPT-4o不仅是完全免费的，而且覆盖了桌面与移动App，人机交互更加自然简单，真正做到了实时语音对话，就像是与真人聊天一样自然流畅 —— 能够在短至232毫秒内响应音频输入，平均响应时间为320毫秒，与人类在对话中的反应速度几乎一致。

对比传统语音助手如Siri、Alexa以及各种「同学们」在处理语音输入时，需要多个模型的接力处理：先将音频转换为文本，再进行“输入并输出文本”的处理，最后再将文本转换回音频。这种处理方式常导致信息的大量丢失，例如无法捕捉到语调、识别多个说话者或背景噪音。GPT-4o则是通过端到端地训练一个统一的新模型，直接处理所有输入和输出，实现了真正的毫秒级响应。

值得注意的是，GPT-4o还能够与用户进行多样化的语气交互，并精准捕捉到用户的情绪变化。面对GPT-4o处理反应已经达到人类的速度，甚至还可以理解用户的情绪，以相应的情感作出回应。那么，谷歌在I/O大会上又拿出了怎样的AI产品，是否带来了足够的震撼与新意？

谷歌AI全家桶

谷歌I/O大会主题演讲上发布了一系列基于Gemini的“AI全家桶” —— 包括AI助手Project Astra、升级200万tokens上下文的Gemini 1.5 Pro、新模型Gemini 1.5 flash、类Sora的新视频大模型Veo，以及包括AI搜索、AI+Gmail在内的多个AI应用。

Project Astra

Project Astra是一个实时、多模式的人工智能助手，而从谷歌的演示视频来看，可以通过视频画面接受信息、理解复杂多变的环境并做出回应。例如用户手持手机，将摄像头对准办公室的不同角落，当发出指令“请告诉我智能眼镜在哪里”时，Astra能够迅速识别物体，并与用户进行实时的语音交流。

它也可以理解绘画和图像，如可以对一个写在白板上的系统流程图给出意见“在服务器和数据库间添加缓存可以提高速度”。DeepMind联合创始人兼首席执行官德米斯·哈萨比斯（Demis Hassabis）称，Project Astra是自己期待了几十年的AI助手的雏形，是通用AI的未来，“可以通过连续编码视频帧、将视频和语音输入组合到事件时间线中，并缓存这些信息以进行有效回忆，从而更快地处理信息。”

略微遗憾的是，OpenAI抢先发布了GPT-4o的类似功能，晚一天亮相的Project Astra少了一些惊喜和震撼，或许这就是OpenAI突然抢先发布的主要原因，因为谁先发布就占据了媒体报道的焦点。

升级版Gemini 1.5 pro

Project Astra背后的Gemini系列大模型能力也有更新，此次升级大致可以归结为：更长上下文、轻量版本、个性化机器人。升级后的Gemini可以分析比以前更长的文档、代码库、视频和音频记录，据透露，它最多可以容纳200万token（暂时只面向开发者提供）。这是之前的两倍，新版Gemini 1.5 Pro支持所有商用型号中最大的输入。

新模型Gemini 1.5 flash

为了满足不同场景的需求，谷歌还发布了新的轻量级模型：Gemini 1.5 Flash，是通过Gemini 1.5 Pro“蒸馏”得来（“蒸馏”是一种模型压缩技术，让小模型学习大模型，将重要的知识和技能迁移过来）。Gemini 1.5 Flash的上下文处理能力同样达到了百万级别，但却比1.5 Pro更为轻便迅速，针对低延迟和专注成本的任务进行了优化，更适合规模化构建。

解决了关键的成本问题，Gemini 1.5 Flash的价格定为每100万个token需要35美分，这比GPT-4o的每100万个token需要5美元的价格要便宜得多。

Gemini大模型已经覆盖了谷歌全平台的20亿用户产品，仅仅三个月时间就有100多万用户注册使用。而两个月前发布的原生多模型Gemini 1.5 Pro已经得到超过150万开发者的使用。

在AI领域投入了十多年时间，贯穿了AI的每一层：研究、产品、基础设施后，谷歌宣布已经全面进入Gemini时代。虽然OpenAI在产品发布方面抢占了先发优势，但谷歌在研究论文、用户规模、产品数量以及算力方面都占据着压倒性优势。

文生视频模型Veo

视频生成模型Veo直接对标OpenAI的Sora，可以根据文本提示创建大约一分钟长的1080p视频剪辑。Veo可以捕捉不同的视觉和电影风格，包括风景和延时镜头，并对已生成的镜头进行编辑和调整。与Sora类似，Veo展现了对物理规律的一定理解，比如流体动力学和重力等。

未来Veo将整合到YouTube Shorts和其他产品中，YouTube Shorts是谷歌对标TikTok的短视频服务，得益于YouTube的庞大体量，发布三年时间之后，目前月活用户已经突破了23亿。显然，一旦Veo进入YouTube Shorts，其用户规模将是Sora所无法想象的。

更强的AI搜索

自生成式AI崛起开始，搜索被认为是AI应用最成熟的场景。AI搜索的升级也是本次发布会的一大亮点，推出了AI Overviews，该功能将AI结果加入到搜索内容呈现，即当用户进行提问时，页面顶部将提供AI生成的答案。每次用户进行搜索时，谷歌会在后台进行算法价值判断，以决定是否提供由AI生成的答案还是直接提供传统的网页链接。

谷歌也强化了多模态方面的搜索表现。比如，推出AI驱动的“圈搜索”功能，允许Android用户使用转圈等手势立即获得答案。这一设计的初衷是，让用户在手机上的任何地方都可以更自然地通过一些操作（例如圈选、突出显示、涂鸦或点击）来使用搜索。此外，用户还能通过结合视频进行搜索，用视频搜索能够更清晰、准确地反馈问题。

实际上，移动端才是用户体验谷歌AI功能的最直接平台。在今年年初三星手机推出谷歌AI技术加持的画圈搜索、全屏翻译等人性功能之后（三星国行版使用百度AI技术），半年时间全球已经有超过1亿设备搭载了谷歌画圈搜索功能。谷歌预计今年年底这一数字将翻一倍，达到两亿设备。

第六代TPU芯片Trillium

在I/O大会上还发布了第六代TPU处理器Trillum，每个芯片处理速度比前一代TPU v5e提升了4.7倍。谷歌在AI领域的强大优势不仅体现在大模型，还体现在他们在AI处理器领域的实力，早在2016年谷歌就推出了为AI训练设计的第一代TPU（定制张量处理单元）。Gemini大模型完全是在自己的第四代和第五代TPU上进行训练与服务的，谷歌甚至还向Anthropic等其他AI公司提供了TPU训练服务。除了TPU之外，谷歌上个月还发布了第一代基于ARM架构的AI CPU Axiom。

OpenAI再次对线谷歌

2023一整年，OpenAI和谷歌多次对线，相信谷歌深深品尝到了peer pressure的滋味：

· 2022年11月，OpenAI发布ChatGPT一鸣惊人，开启了全球大语言模型的热潮；2023年3月，谷歌紧急发布了Bard，上线时功能有限，无法和ChatGPT有效竞争。

· 在谷歌发布Bard的同一时期，OpenAI已经更新推出GPT-4并开放了API；2023年的谷歌I/O大会发布PaLM 2对应GPT-4。但PaLM 2仅仅缩小了与GPT-4的差距，并没有整体超越GPT-4，因此在这场大会上同时宣布正在训练PaLM的继任者Gemini。

· 2023年12月，谷歌发布Gemini，而GPT-4已经是OpenAI一年前的产品。而且，Gemini还被爆出，宣称打败GPT-4的多模态视频有后期制作和剪辑的成分。

· 谷歌随后紧接着推出了最强多模态大模型Gemini 1.5 pro，能够稳定处理高达100万token，创下了最长上下文窗口的纪录；面对Gemini 1.5 pro，OpenAI只用了几个小时就做出了回应 —— 推出文字视频生成模型Sora，用前所未有的视频生成性能以及世界模型的产品化，抢走了Gemini 1.5 pro的话题度，也强化了自己的AI领导地位。

从产品进展来看OpenAI领先一筹。虽然OpenAI凭借创业公司的灵活专注优势，屡屡抢占先发优势，每次都能领先谷歌一步发布新品，但谷歌依然有着自己的独有优势所在。作为最早投入AI研究的科技巨头，谷歌最大的竞争优势不仅在于产品的研发，还包括了基础设施和运算能力，在于庞大的谷歌应用矩阵与数十亿的用户级别。

OpenAI的GPT-4o在自然语言处理能力上表现强大，谷歌在多模态理解、数据丰富性和开发者支持方面也展现了强劲的竞争力。两者在各自擅长的领域均有显著优势，并不断推动人工智能技术的发展。

目前来看，手机依然是AI智能助手最重要的硬件载体，掌握Android系统的谷歌有着天然的优势，前段时间苹果与OpenAI的合作传闻，可能正是来源于二者对抗谷歌因而各取所需。现在谷歌除了Gemini外，还有强力的外部支持，也是相比其他竞争者的最大优势之一，即丰富的应用生态，可以用Gemini打通并连接更多自己的应用，用户在谷歌应用和服务中的信息都能被调用。

移动与桌面两端的20亿+的用户规模，以及几乎覆盖所有领域的产品，更是谷歌AI技术落地的庞大产品军火库。从搜索到邮件，从地图到图片，再到办公组件，谷歌有着太多上亿乃至十亿用户级别的产品可以承载AI落地。

然而，谷歌DeepMind的技术路线就暴露出了明显的短板：在各个技术方向上投入的泛创新，消耗了大量资金，DeepMind与谷歌母公司Alphabet在商业化上的矛盾日趋加深；每个技术的重视程度、持续深入强度分散，最典型的就是Transformer架构，由谷歌发明却被OpenAI发扬光大；落地迟缓，成果转化的效率也很低下，这一点在Sora的爆火上就能看到，训练Sora使用的扩散模型（diffusion model）、文生图模型，谷歌都有相应的技术储备和成果，但是却没能先推出相关的产品。

值得一提的是，今年初，OpenAI发布了AI文生视频模型Sora，一度惊艳市场，但Sora的模型训练数据来源却引起了外界的怀疑。面对Sora滥用Youtube视频训练的问题，在接受接受采访时，桑达尔·皮查伊表示，如果谷歌确定OpenAI依赖YouTube内容来训练其Sora模型，谷歌将要“解决这个问题”。

“我认为这是他们应该回答的问题，我没有什么要补充的，我们有明确的服务条款。所以，你知道，我认为通常在这些事情上，我们会与企业接触，并确保他们理解我们的服务条款。我们会解决的。”

新闻中心

OpenAI再次对线谷歌，谁才是赢家？

评论

相关推荐

技术专区