AI推理 - AI资讯 | 嬴政天下

AI推理独角兽Modal Labs洽谈25亿美元估值融资

据消息人士透露，四年历史的AI推理初创公司Modal Labs正与General Catalyst洽谈新一轮融资，估值高达25亿美元。该轮融资由General Catalyst领投，此举反映了AI基础设施领域投资热潮。随着生成式AI模型推理需求激增，Modal Labs凭借其高效云GPU平台脱颖而出，已吸引众多开发者。该公司快速崛起凸显了AI后端服务市场的巨大潜力，或将进一步巩固其在竞争激烈的云AI赛道中的领先地位。（128字）

OpenAI o1模型数学能力争议：幻觉问题挑战AI基准测试有效性

OpenAI o1-preview模型在数学基准测试中创下新高，却在用户复杂问题测试中频现幻觉，多位AI专家质疑其真实能力。Sam Altman回应模型仍在迭代中。该话题X帖互动破百万，引发AI评估标准大讨论。

Ares基准正式发布

MLCommons与LMSYS Org联合宣布Ares开源基准的推出，这是首个针对长上下文多代理推理的标准化评估框架。Ares整合Chatbot Arena的Elo Rating系统，测试模型在复杂任务中的表现，包括工具调用和多轮交互。首批结果显示，GPT-4o和Claude 3.5 Sonnet位居前列，得分超过1400 Elo。新基准采用SGLang优化，支持高效评估大规模模型，推动AI代理标准化发展。该框架开源，欢迎社区贡献，标志着AI评估进入多模态代理时代。（128字）

MLPerf Client 1.5 正式发布

MLCommons 近日发布了 MLPerf Client 1.5 基准测试套件，这是客户端 AI 推理性能评估的最新版本。该版本引入了多项优化和新场景，包括更真实的客户端负载模拟，支持热门模型如 BERT 和 Stable Diffusion。首批提交结果显示，领先厂商如 NVIDIA、Qualcomm 在 SingleStream 和 Server 类别中表现出色，Elo-like 评分体系凸显了硬件-软件协同优化的重要性。本次发布为移动设备和边缘计算 AI 应用提供了标准化评估框架，推动行业创新。（128字）

WD

AI数学新星破解四大长期未解难题

一家名为Axiom的AI数学初创公司宣布，其AI系统成功解决了四个长期困扰数学家的未解难题。这一突破标志着AI推理能力的稳步提升，从简单证明到复杂问题求解，AI正逐步挑战人类数学巅峰。Axiom的成就不仅验证了大型语言模型在数学领域的潜力，还可能加速科学发现进程。专家认为，这或将重塑数学研究格局，推动AI向通用智能迈进。（128字）

NVIDIA DGX Spark 深度评测：本地 AI 推理新标杆

NVIDIA DGX Spark 是一款紧凑型一体机，将超级计算级性能带入桌面工作站。通过 NVIDIA 早期访问计划，我们深入测试了这款设备。它搭载 GB10 Grace Blackwell Superchip，提供 128 GB 统一内存，支持 FP4 精度下高达 1 PFLOP 计算力。测试显示，在 SGLang 和 Ollama 框架下，DGX Spark 擅长运行小型模型（如 Llama 3.1 8B），批处理时吞吐量出色；大型模型（如 Llama 3.1 70B）适合原型开发。统一内存设计消除数据传输开销，投机解码可加速 2 倍。尽管内存带宽（273 GB/s）是瓶颈，但其外观精美、散热优秀，适合模型实验、边缘 AI 研究。两台联机可运行 4050 亿参数模型，是开发者理想平台。（128 字）

SGLang 当日即支持高效开源 Nemotron 3 Nano 混合 MoE 模型

SGLang 快速集成 NVIDIA 最新发布的 Nemotron 3 Nano 模型，该模型采用混合 Transformer-Mamba 架构与 MoE 设计，总参数 30B、激活参数仅 3.6B，支持 1M 上下文长度。在 NVFP4 精度下，通过 Quantization-Aware Distillation (QAD) 技术保持高准确率，同时在 B200 上实现比 FP8-H100 高 4 倍的吞吐量。模型在编码、科学推理、数学和指令跟随等基准上领先，适用于构建企业级 AI 代理。SGLang 提供即插即用支持，开发者可轻松部署于 RTX Pro 6000、H100 等 GPU。（128 字）

AI推理 (共10篇)