数学基准 (共2篇)

OpenAI o1模型数学能力争议：幻觉问题挑战AI基准测试有效性

OpenAI o1-preview模型在数学基准测试中创下新高，却在用户复杂问题测试中频现幻觉，多位AI专家质疑其真实能力。Sam Altman回应模型仍在迭代中。该话题X帖互动破百万，引发AI评估标准大讨论。

OpenAI最新o1-preview模型在数学和编码基准上大幅超越GPT-4o，ARC-AGI得分高达83%。其‘思考链’机制让AI像人类一样逐步推理复杂问题，开发者实际应用案例火爆X平台，互动超50万次。此突破标志AI向通用智能迈进，引发AGI路径热议。