忘却AGI——顶级AI模型在数学领域仍显乏力
AGI的愿景与现实差距
人工通用智能(AGI)通常被描述为能够在多个领域像人类一样执行任务的系统。然而,本周发布的MATHVISTA基准测试结果显示,当前的模型距离这一目标仍有显著差距。
多机构联合研究揭示AI短板
来自微软研究院、撒哈拉AI和埃默里大学的研究人员测试了对通用智能至关重要的能力——基于视觉信息的数学推理,包括图表、图形和示意图。
在测试的12个基础模型中,包括ChatGPT、Gemini和Claude,GPT-4 Vision得分最高,为49.9%。相比之下,人类参与者的平均得分为60.3%,凸显了当前AI系统与通常与AGI相关的广泛推理能力之间的差距。
视觉推理:AI的软肋
“我们希望机器能够完成普通人日常任务所能做的事情,”微软研究院首席研究员程浩告诉Decrypt,“这基本上就是每个人追求AGI的目标。”
通过将问题嵌入图像、图表和绘图中,该项目测试了模型是否能够准确解读视觉信息并解决多步骤的数学和逻辑问题——这些技能超越了单纯依赖文本模式匹配的能力。
然而,模型在这些任务上仍然表现挣扎,且衡量这种局限性并不容易。
当程浩的团队审查现有的评估数据集时,许多问题并未涉及视觉推理。模型往往仅依靠文本就能得出正确答案。
“这并不理想,”程浩表示。
MathVista:推动AI能力边界的工具
MathVista于2023年10月在GitHub和Hugging Face上线。根据微软研究院的数据,截至目前,该工具已被下载超过275,000次,其中包括过去一个月内的13,000多次下载。
然而,创建这一数据集需要的不仅仅是标准的数据标注。微软研究院需要能够处理算术、代数、几何和统计问题的标注员,同时还要区分深层次的数学推理(如解读图表或解方程)与简单的任务(如计数或读取数字)。
在试点阶段后,微软选择了撒哈拉AI来支持这一工作。该公司提供了经过培训的标注员、定制的工作流程以及多阶段的质量检查,最终生成了用于基准测试的6,000多个多模态示例。
数据污染与基准测试的挑战
撒哈拉AI首席执行官兼南加州大学计算机科学副教授任松指出,如果没有可靠的基准测试,衡量迈向更广泛机器智能的进展将变得困难。
“这里有一个数据污染的细微差别,一旦我们开始使用这个数据集进行测试,那些结果就会被吸收到下一个版本中,”任松告诉Decrypt,“所以你不知道它们是在解决一个数据集,还是真正具备了这种能力。”
如果基准测试的答案出现在模型的训练数据中,高分可能反映的是记忆而非推理能力。这使得判断AI系统是否真正有所改进变得更加困难。
训练数据的局限性与未来方向
研究人员还指出了训练数据的局限性。大部分公开可用的互联网内容已经被纳入模型数据集。
“你肯定需要找到某种方式将一些新知识注入到这个过程中,”程浩说,“我认为这种东西必须来自高质量的数据,这样我们才能真正突破知识边界。”
一种提议的路径是模拟环境,在其中模型可以交互、从经验中学习并通过反馈不断改进。
“你可以在某个沙盒中创建一个孪生世界或现实世界的镜像,让模型可以玩耍并做很多人类在现实生活中做的事情,从而打破互联网的界限,”程浩补充道。
人类在AI进化中的关键作用
任松表示,人类在未来改进AI系统的过程中可能仍将发挥重要作用。尽管模型能够快速生成内容,但人类在评估内容方面仍然更具优势。
“人类与AI之间的这种差距——他们擅长什么,不擅长什么——可以被利用来真正推动AI的进步,”他说。






