正文

谷歌I/O大会:AI全面渗透,新模型与生态布局引领未来

编辑:PUMPmaps发布时间:2小时前

谷歌CEO定调:AI进入超高速发展期

北京时间5月20日凌晨,谷歌CEO Sundar Pichai在I/O大会上表示:“这是一个非凡的时刻。这是一个超高速发展的时期。”这一表态不仅总结了当前AI行业的现状,也为整场发布会奠定了基调。凤凰网科技认为,与其说这是一场技术发布会,不如说是谷歌向外界传递了一个明确信号:当行业还在追逐参数榜时,谷歌已经将竞争引向“世界模型”和“极致性价比”两条新赛道。

Gemini Omni登场:AI开始“模拟现实”

本次发布会最受关注的模型更新并非某个跑分更高的文本模型,而是Gemini Omni。谷歌将其定义为“世界模型”的重要一步。Pichai指出,AI正从预测文本转向模拟现实,而Omni是第一个“可以从任何输入生成任何输出模态”的模型,率先落地的是视频输出。

谷歌DeepMind首席架构师Korai在演示中展示了一段由Omni生成的视频:仅凭提示词“蛋白质折叠的解说”,模型生成了一段讲解蛋白质如何从氨基酸链折叠成α螺旋和β折叠并最终形成三维形状的视频。这段视频并非素材拼接,而是基于模型训练中积累的知识直接生成,展现了对“直觉物理学”的理解。

U1zctpHHesAsCnh9OPBMgcC4fJLOgYXAawq7YhMV.jpeg

Omni在视频编辑上的表现也令人兴奋。用户上传自己的视频后,Omni能够基于音频、图像和视频等多种输入进行跨模态推理,并自然地对角色、细节和风格进行修改。这种能力相当于将Nano Banana在图像编辑上的创新完整复制到了视频领域。

Omni Flash将于本周二起向Google AI订阅用户开放,用户可在Gemini应用、Google Photos和YouTube Shorts上体验。所有由Omni创建或编辑的内容都将嵌入谷歌不可察觉的数字水印,以应对安全伦理问题。Pichai还宣布,OpenAI和ElevenLabs正在采用SynthID 2,这种跨行业合作在AI透明度议题上并不多见。

Gemini 3.5 Flash:成本优化的“闪电战”

如果说Omni代表了谷歌的技术储备,那么Gemini 3.5 Flash则是针对市场痛点的一把快刀。根据谷歌官方数据,3.5 Flash在几乎所有基准测试中都超越了上一代旗舰模型3.1 Pro,尤其在编码能力和衡量现实经济价值任务的GDP Val基准上实现了显著飞跃。

JLanE9GOvZPVlTnVz2R38MKcYmexrkglzxrECIhO.jpeg

Pichai在台上给出了一组对比数据:3.5 Flash的智能水平几乎与市面上最好的模型持平,但其输出速度是其他前沿模型的四倍。经过内部Anti Gravity平台优化后,速度优势甚至扩大到12倍。

TRwurEczbAjpRWi6ubdLDPDAxkKDxckWY6RkbeOX.jpeg

速度的背后是成本逻辑。Pichai罕见地为企业CIO算了一笔账:“我听到很多CIO说公司快用完年度Token预算了。假如他们拿出80%的工作负载从别家模型切换到3.5 Flash,一年能省超过10亿美元。”这种性价比策略显然旨在通过规模效应清场市场。

支撑这种性价比的还有谷歌自研的第八代TPU。此次谷歌首次采用双芯片设计(CPU 80和8 I),并通过多机多任务训练框架“Pathways”技术,将训练分布到全球超过100万个TPU上,创建了全球最大的训练集群。Korai透露,今年3月谷歌内部每天处理0.5万亿Token,目前已飙升至每天超过3万亿Token。

生态布局:从开发者到购物车的全面“包围”

除了模型本身,谷歌在生态系统上的布局同样值得关注。

在开发者侧,谷歌发布了Anti Gravity 2.0,一个独立桌面应用,可让用户编排多个AI智能体并行完成任务。同时推出的还有命令行界面和SDK,为程序员提供了与谷歌自身产品同等能力的智能体工具包。

在安全领域,谷歌展示了一款名为Covenant的工具,利用Gemini模型自动查找并修补代码漏洞,而不仅仅是发现问题,瞄准了大型企业对安全自动化的需求。

在搜索和购物体验方面,谷歌商务负责人Vidhya展示了“Universal Card”智能购物车,支持跨设备、跨商家运作。用户可以在搜索、YouTube、Gmail中随时添加商品,购物车会自动查优惠、监控降价、提醒补货,并根据用户钱包中的多张银行卡计算最优结算方案。

此外,全新的Gemini Spark定位为7×24小时运行在云端的个人AI智能体,即使用户关掉设备,它仍能在后台继续完成任务。Spark将首先面向可信测试者开放,随后以每月100美元的新Ultra套餐价格推出。

谷歌的全栈式AI战争

通过这场发布会可以看出,谷歌已不再将AI视为单一的产品竞赛,而是将其转变为从芯片到模型、从开发者到消费者、从搜索到购物的全栈战争。Omni定义了“理解世界”的技术上限,3.5 Flash打穿了商业化的成本底线,而搜索、地图、购物、邮件等国民级应用则完成了场景收割。

当然,挑战依然存在。Spark智能体能否跨越用户隐私和信任的门槛?Omni的视频生成能力在开放后能否守住安全边界?这些问题的答案将决定谷歌这盘AI大棋的终局成色。