谷歌承认 Gemini 演示视频是剪辑版
科技巨头谷歌的新大模型 Gemini 一夜爆红,受到市场看好,但有分析指出,谷歌在 Gemini 的宣传资料中存在夸大宣传的嫌疑。
当地时间 12 月 6 日,谷歌宣布推出“最大、最强、最通用”的新大型语言模型 Gemini。Gemini 将是首个直接在手机上运行的大模型,被应用于谷歌 Pixel 8 Pro 智能手机和聊天机器人 Bard。Gemini 被视为对于 AI(人工智能)新锐巨头 OpenAI 旗下最新大模型 GPT-4 的直接回应,也象征着一度因聊天机器人 ChatGPT 而处于被动状态的谷歌终于正式冲回赛道。
据谷歌介绍,Gemini 在 MMLU(大规模多任务语言理解)的得分率达到 90.0%,是第一个在 MMLU 测试中超过人类专家的模型。Gemini 将包括一套三种不同规模的模型,其中,Gemini Ultra 被定位为 GPT-4 的竞争对手,Gemini Pro 的性能优于 GPT-3.5,Gemini Nano 则用于特定任务和移动设备。
凭借强大的性能,Gemini 一夜爆红,引来了华尔街的关注。12 月 7 日,谷歌母公司 Alphabet(Nasdaq:GOOG)的股价涨 5.31%,收于 136.93 美元,迎来自今年 8 月 29 日以来表现最好的一天,总市值达到 1.72 万亿美元。
美国银行的分析师在 6 日指出,由于人们对于谷歌的 AI 能力感到担忧,Alphabet 今年承受了一定的压力,而一款“具有良好品牌形象的、竞争力较强的模型”可能会吸引更多消费者使用谷歌搜索,并对云服务的销售产生积极影响:“数据显示谷歌拥有一流的、不可复制的 AI 能力,这可能对公司在 2024 年上半年的股票走势产生积极影响。”
摩根大通的分析师在 6 日的一份报告中写道,尽管市场在当天没有对 Gemini 给出明显的反应,能够看到谷歌在“这一主要技术转变”中的进展还是十分“鼓舞人心”。然而,摩根大通也指出,大模型在“搜索领域的货币化路径存在不确定性”,可能会在未来带来一些阻力。
在 7 日的报告中,摩根大通的分析师写道:“虽然现在还处于其发展早期,但 Gemini 的推出象征着在生成式 AI 获得广泛商业化并得到广泛传播的第二年中,谷歌做出了重大创新。”
目前看来,谷歌如何在整体业务、尤其是最重要的搜索业务中将 Gemini 进行商业化是备受华尔街关注的一点。目前,谷歌计划在本月晚些时间通过谷歌云将 Gemini 授权给客户,并将在未来几个月与谷歌服务中的其他产品集成,但还没有公布后续的商业化策略。
富国银行(Wells Fargo)的分析师表示,Gemini 的推出应该足以平息关于“谷歌在 AI 领域究竟应该何去何从”的争论,不过,关键问题在于谷歌如何利用 Gemini 获得营利:“简而言之,我认为谷歌证明了他们仍然具有一些竞争力。”
而 KeyBanc 的分析师也表示,Gemini 是谷歌今年众多 AI 公告的“顶峰”,但要让 AI 对谷歌的业绩增长和盈利能力产生积极影响需要时间:“Gemini 仍在努力进入搜索等核心产品,因此我们建议耐心观察其影响。”
不同于华尔街的整体看好,在科技领域中有声音指出,Gemini 或许存在“夸大宣传”的质疑。
在 Gemini 于 6 日推出后不久,就有网友指出了宣传资料中的一些不妥之处。例如,当谷歌称 Gemini 的 MMLU 的得分率高于 GPT-4 时,显示 GPT-4 的得分率是 86.4%,但根据谷歌发布的 60 页技术报告,Gemini Ultra 的 MMLU 测试结果下有“CoT@32”的小字注释,表示其使用了思维链提示技巧,尝试了 32 次并从中选择最好结果。而作为对比的 GPT-4 却是无提示词技巧给 5 个示例,在这个标准下,Gemini Ultra 的测试结果其实是 83.7%,低于 GPT-4 的 86.4%。
如果是同样使用 CoT@32 的方法,虽然成绩仍低于 Gemini Ultra,GPT-4 的得分率达到了 87.29%。
如果像谷歌 DeepMind 首席科学家杰夫·迪恩(Jeff Dean)回应的那样,这种写法只是为了显示两种不同方法间的比较,对于 Gemini 测试视频的质疑则显得更加难以反驳。
在推出 Gemini 后,谷歌发布了一个时长六分钟的演示视频,展现了测试员和 Gemini 的一些有趣互动,其中包括让 Gemini 识别图片并用多种语言描述、让 Gemini 利用一张地图设计智力问答、和 Gemini 玩杯子游戏和推理小游戏等等。在整个过程中,Gemini 的反应速度都非常快,还会生成音频和图片来辅助回答,并用上一些口语化乃至幽默化的表达,可谓是让人大开眼界。
然而,很快就有网友从视频开篇的文字免责声明中发现了问题,认为其可能暗示了视频中展示的是精心挑选的好结果,不是实时录制,而经过剪辑的。随后,谷歌在一篇博客文章中解释了多模态交互过程,基本上也间接承认了只有使用静态图片和多段提示词拼凑,才能达成演示视频中的效果。
例如,在文章中,谷歌承认,不同于视频中对于猜拳手势的快速反应,只有在向 Gemini 同时展示这三个手势并提示其这是游戏时,Gemini 才会得出猜拳游戏的结论。
有分析指出,这和谷歌在视频中所暗示的可以说是完全不同,因为从视频看来,Gemini 可以实时观察周围的世界并做出反应,用户可以与 Gemini 进行流畅的语音对话。沃顿商学院教授伊桑·莫利克(Ethan Mollick)也在 X 平台上进行了演示,如果是使用静态图片和多段提示词,完全可以通过 ChatGPT Plus 来复制 Gemini 的表现。
伊桑·莫利克给 ChatGPT Plus 同时展示谷歌演示视频中的多张截图,ChatGPT Plus 也能给出类似的答案。
在质疑发酵后,谷歌 DeepMind 产品副总裁伊莱·柯林斯(Eli Collins)对外媒回应称,视频中的画鸭子演示(画一个鸭子的简笔画,Gemini 可以对每一步骤做出正确的解释)确实是研究级别的功能,至少目前还没有出现在谷歌的实际产品中。
谷歌 DeepMind 研究和深度学习负责人副总裁奥里奥尔·维尼亚尔斯(Oriol Vinyals)也在 X(原推特)平台上发布长文,解释了团队是如何制作该视频的:“视频中的所有用户提示和输出都是真实的,只是为了简洁而进行了缩短。”维尼亚尔斯还表示:“该视频展示了使用 Gemini 构建的多模态用户体验是什么样子。我们这样做是为了激励开发人员。”
然而,维尼亚尔斯的回应引发了更多的争议。有网友评论道:“如果你想激励开发者,为什么不发布真实的内容呢?被缩短的用户提示就不算‘真实’。这样做既不真诚,又具有误导性。”
有谷歌员工对外媒透露,他们认为这段视频描绘了一幅“不切实际的画面”。有员工表示,对这种夸张的演示并不感到惊讶,因为员工们已经习惯了公司会对产品在某种程度上进行夸大营销:“我认为大多数使用过大语言模型技术的员工都知道,要对(演示中的)这一切持保留态度。”
有外媒认为,谷歌“庞大的官僚体系和各级产品经理使其直到现在都无法像 OpenAI 那样敏捷地推出产品”。对于正在应对 AI 转型影响的社会而言,这并不是坏事。但对于谷歌最近这种迅速推进的表现,应该保持一定的保留态度。
评论区