21世纪经济报道记者张梓桐 上海报道 美国当地时间5月14日上午10点,一年一度的科技圈盛会“谷歌I/O开发者大会”如期召开。会上,谷歌发布了一系列基于Gemini的“AI全家桶”——包括升级200万Tokens上下文的Gemini 1.5 Pro、新模型Gemini 1.5 flash、类Sora的新视频大模型Veo,以及包括AI搜索、AI + Gmail在内的多个AI应用。
具体来看,此番发布会上最令人瞩目的亮点,在于谷歌先于OpenAI发布了人工智能(AI)搜索引擎,又一次捍卫了其在搜索领域的王者地位;同时,面对OpenAI新发布的旗舰模型GPT-4o,谷歌以升级版的最强AI大模型Gemini“正面硬刚”。
国内一家大型券商的研究人员告诉21世纪经济报道记者,在最新Gemini的加持下,谷歌搜索有望具备多步骤推理能力,可以一次性处理带有多个限制条件的长问题,这将有力捍卫其自身的业务优势。而OpenAI日前没有推出自己搜索功能则主要出于成本上的考量。
“搜索功能确实可以极大地提升用户体验,但这背后关乎成本问题。比如搜索功能需要从互联网上检索大量数据,这涉及服务器的运算资源和带宽消耗。同时,搜索功能还需要海量的存储成本和大量的计算资源,这对于已经十分‘烧钱’的OpenAI无疑已难以承担。”该研究人员分析道。
事实上,据流量监测平台StatCounter数据,谷歌仍然在搜索引擎领域占据着“霸主地位”。虽然谷歌近一年内市占率有所下滑,但其市场地位依然稳固。今年4月,其全球搜索引擎市场份额从去年4月的92.82%下降至今年4月的90.91%,而必应全球市占率仅为3.64%。
截至当地时间5月14日收盘,谷歌报171.93美元,涨幅0.6%,市值2.1万亿美元。
谷歌“AI全家桶”上新
作为对垒OpenAI的“拳头产品”,谷歌在 I/O开发者大会上推出了新模型Gemini 1.5 Flash,以作为Gemini 1.5 Pro更具成本效益的替代方案。
谷歌DeepMind首席执行官德米斯·哈萨比斯表示,Flash模型在摘要生成、聊天应用、图像和视频字幕、从长文档和表格中提取数据等方面表现出色,为开发者提供了强大的支持。谷歌推出Gemini 1.5 Flash的初衷在于满足开发者对于更轻便、更经济模型的迫切需求。此外,谷歌在今年晚些时候将会将100万Tokens的窗口进一步扩大至200万Tokens,这将使其能够同时处理2小时的视频、22小时的音频、超过6万行代码或超过140万个单词。
谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)则强调了Gemini在跨语言方面的改进——它将以35种语言向全球开发者开放。同时,皮查伊表示,Gemini 1.5 Pro可以分析PDF和视频以提供摘要,这意味着当用户假期结束回归工作时,模型可以将电子邮件和附件一起进行总结。
此外,开源大模型Gemma也迎来一系列的更新,定于下月推出的Gemma 2参数量将能达到270亿。最后,谷歌的第一个视觉语言模型PaliGemma也被添加到Gemma模型系列中。
另一方面,今年2月,OpenAI发布视频生成模型Sora引爆网络,而此次谷歌则推出Veo对标Sora,并表示这是“我们最强大的视频生成模型”。
据悉,Veo不仅具备生成时长超过1分钟、分辨率高达1080P的精致视频能力,而且能够精准捕捉并转化“延时摄影”“航拍风景”等专业的电影术语,将它们在视频中展现。
为了让用户能够更灵活地指导Veo进行视频创作,谷歌提供了文本、图像甚至视频提示的多种输入方式。
竞逐AI搜索流量入口
除了技术上的突破,最令全球市场瞩目的莫过于谷歌如何将AI能力与自身的搜索业务完美融合。毕竟自OpenAI不断祭出“王炸”以来,市场一直在怀疑谷歌在搜索市场上的地位是否会被动摇。
而今看来,谷歌有力地正面回击了相关质疑。在大会上,谷歌宣布,从本周开始,谷歌搜索引擎将在美国推出“AI概览”(AI Overviews)的功能,搜索引擎会直接对搜索结果进行归纳总结。同时,谷歌搜索也将具备多步骤推理能力,可以一次性处理带有多个限制条件的长问题,并支持“拍视频”搜索解决方案的新搜索形式。
皮查伊在演讲中提到,Gemini带来的最令人兴奋的变革之一体现在谷歌搜索中。根据现场演示,此番升级后的搜索引擎具备多步骤推理的能力,例如寻找一个瑜伽教室,同时展示新手优惠报价和距离特定位置的步行时间。该AI搜索引擎助手还能介绍食谱、安排行程以及接受视频形式的提问。
此外,许多人或许都曾经历过花费数小时浏览网页信息流来查找想要搜索的图片。对此,谷歌推出了AI解决方案,借助Gemini,用户可以在Google Photos中通过对话提示来查找他们想要的图像。
事实上,在业内人士看来,搜索本质上是用户寻找特定信息的过程,搜索需求从互联网诞生之初就已存在,且高频、刚需。据QYResearch,2023年全球搜索引擎市场规模超2000亿美元。因此,对于急于寻求落地场景的AI科技巨头来说,搜索领域有着巨大的诱惑力。而如果搜索引擎能够直接提供答案的时代正式到来,这对使用者和内容发布者都将是影响深远的变化。
微软首席执行官萨提亚·纳德拉(Satya Nadella)日前曾在新版必应的发布会上表示,AI加持的搜索引擎,是他担任微软首席执行官九年来“最重要的产品”。作为最先将GPT-4模型整合到新版必应中的公司之一,微软从最初的将ChatGPT集成到搜索引擎中,到现在的搜索引擎与ChatGPT的深度融合与同步,其变革之路充满了探索与创新,为当下的引擎行业带来了全新的思考方向。