9.11比9.9大？马斯克声称“天下最聪明”的Grok3“翻车了”

火币app官网下载 2025年02月20日 17:44 22 Connor

近日，马斯克与xAI团队，在直播中正式发布了最新版本Grok3。

此前，马斯克将Grok-3描述为“地球上最聪明的AI”。他在X平台上表示：“自己整个周末都在和团队打磨产品。”

然而据媒体报道，有人测试了最新的Beta版Grok3，并提出了那个经典的用来刁难大模型的问题：“9.11与9.9哪个大？”遗憾的是，在不加任何定语以及标注的情况下，号称目前最聪明的Grok3，仍然无法正确回答这个问题。

值得一提的是，用同样的问题询问DeepSeek时，无论是否开启深度思考（R1）模式，对方都给出了正确的答案：9.9大于9.11。

展开全文

“9.11和9.9哪个大”是AI领域的一个经典问题。

艾伦研究机构（Allen Institute）成员林禹臣曾在社交媒体平台上发布的截图显示，ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题，但另一方面常识依旧很难。”他表示。

随后Scale AI的提示工程师莱利·古德赛德（Riley Goodside）基于此灵感变换了问法，拷问了可能是当时最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大？这几家主流大模型通通答错，他也成功将此话题传播开来。

海外主流大模型答题。图源：第一财经

Grok-3发布会的背景板上，写着"our mission is to understand universe（我们的使命是了解宇宙）"。马斯克曾表示，xAI公司的目标就是“了解宇宙”。

在一周前，马斯克在直播中评论DeepSeek R1时，曾信心满满地表示“xAI即将推出更优秀的AI模型”。从现场展示的数据来看，Grok3在数学、科学与编程的基准测试上已经超越了目前所有的主流模型，马斯克甚至宣称Grok 3未来将用于SpaceX火星任务计算，并预测“三年内将实现诺贝尔奖级别突破”。

xAI在X平台直播，马斯克到场。图源：中国新闻周刊

马斯克强调，Grok-3可以减少AI幻觉，方法是通过来回检查数据并尝试实现逻辑一致性。他还透露，训练Grok-3所使用的算力远多于此前的版本，并使用了大量合成数据。

不同于DeepSeek的算法优化路径（DeepSeek-V3用2048个H800 GPU，训练2788千小时），xAI透露，Grok-3的开发的得益于用8个月时间建成的Colossus超级计算机，它由10万个英伟达的H100 GPU驱动，为训练提供了2亿个GPU小时，比Grok-2多十多倍。

此外，xAI宣布推出名为Deepsearch的Grok-3智能搜索引擎，名字和Deepseek颇有几分相似。

来源：九派新闻综合东方财经、第一财经、中国新闻周刊等