嬴政天下
投稿
全部 519 AI原创 213 海外精选 306 AI测评 61
全部 OpenAI(61) xAI(39) Anthropic(39) 人工智能(35) LMSYS(35) AI代理(34) MLC(31) SGLang(29) Elon Musk(24) 生成式AI(24) AI安全(22) 开源AI(20) AI伦理(20) 大语言模型(19) MLCommons(15)

统一FP8:超越混合精度,实现稳定加速的MoE RL训练

我们实现了RL中全FP8采样和训练流程。实验显示,对于MoE模型,使用BF16训练结合FP8 rollout时,模型越大,训练-推理不一致性越严重。相比之下,统一FP8用于训练和rollout,能有效消除量化误差导致的训练-推理不一致,提升RL训练的速度与稳定性。本文详述FP8硬件基础、格式选择、尺度计算及量化策略,支持Qwen3-4B和Qwen3-30B-A3B的miles框架即插即用,由InfiXAI、Ant Group AQ、SGLang RL和Miles团队联合完成。(128字)

LMSYS FP8 RL训练
188 02-04

从研究到生产:EAGLE-3在Vertex AI加速开源LLM推理2-3倍

推测解码(Speculative Decoding)能显著提升LLM推理速度,但传统方法需额外训练低效的草稿模型。Vertex AI采用EAGLE-3创新方案,仅在目标模型内部层添加轻量级草稿头(仅占2-5%模型大小),简化训练并实现2x-3x解码加速。本文详述从数据清洗、嵌入生成、训练到使用SGLang在Vertex AI大规模部署的完整管道,分享关键挑战与经验教训,包括合成数据管道、离线训练、聊天模板应用、掩码处理及Zero-Overhead Overlap Scheduler优化。基准测试显示,在Llama 4 Scout 17B上,EAGLE-3显著降低TPOT并提升吞吐量。(128字)

LMSYS EAGLE-3 Speculative Decoding
178 02-04

SGLang推理加速:原生集成NVIDIA Model Optimizer,实现无缝量化部署

SGLang最新功能原生支持NVIDIA Model Optimizer量化!这一集成简化了从全精度模型到高性能量化端点的整个优化与部署流程,无需多步工具切换。通过SGLang中的ModelOpt API,只需三步即可完成量化(支持NVFP4、MXFP4、FP8等)、导出与部署。性能表现突出:在NVIDIA B200上,Model Optimizer与SGLang优化可实现比原生FP8高达2倍的单GPU吞吐量。结合Blackwell架构,从DGX Spark到GB300 NVL72均可显著提升延迟降低与内存节省。提供完整示例代码,助力开发者快速上手。(128字)

LMSYS SGLang NVIDIA Model Optimizer
193 02-04

让张量翱翔:R-Fork 加速大模型权重加载

本文介绍 Tensor R-Fork(Tensor Remote Fork),一种创新的权重加载方法,利用高效的跨节点设备间互连,从运行中的 SGLang 实例零拷贝加载张量至新实例。该技术带来三大优势:显著加速权重加载(如 Deepseek-R1 从数分钟缩短至秒级)、消除本地磁盘/DRAM 冗余存储(节省约 600GB)、不干扰推理服务。核心设计基于 GPU-Direct RDMA 构建 P2P 权重存储架构,支持 NCCL 和 TransferEngine 两种后端。性能测试显示,在 8 张 NVIDIA H20 GPU 上加载 Deepseek-R1 模型时间大幅缩短,已实现生产就绪。

LMSYS SGLang Tensor R-Fork
188 02-04

SGLang 当日即支持高效开源 Nemotron 3 Nano 混合 MoE 模型

SGLang 快速集成 NVIDIA 最新发布的 Nemotron 3 Nano 模型,该模型采用混合 Transformer-Mamba 架构与 MoE 设计,总参数 30B、激活参数仅 3.6B,支持 1M 上下文长度。在 NVFP4 精度下,通过 Quantization-Aware Distillation (QAD) 技术保持高准确率,同时在 B200 上实现比 FP8-H100 高 4 倍的吞吐量。模型在编码、科学推理、数学和指令跟随等基准上领先,适用于构建企业级 AI 代理。SGLang 提供即插即用支持,开发者可轻松部署于 RTX Pro 6000、H100 等 GPU。(128 字)

LMSYS SGLang Nemotron 3 Nano
206 02-04

SGLang即刻支持MiMo-V2-Flash模型

小米MiMo-V2-Flash模型总参数达309B,激活参数仅15B,专为最大化解码效率而设计,核心采用滑动窗口注意力(SWA)和多层MTP机制。该模型针对真实服务负载优化,支持不同硬件上吞吐量与延迟的灵活权衡。结合SGLang的Spec v2运行时,几乎零开销支持多层MTP和高效SWA执行,在H200上实现TPOT与吞吐量的完美平衡。本文详解模型设计、推理高效机制、硬件感知配置、SGLang快速服务支持,并提供基准数据与部署指南。(128字)

LMSYS MiMo-V2-Flash SGLang
195 02-04

Mini-SGLang:轻量高效LLM推理引擎全解析

Mini-SGLang是SGLang项目的轻量版推理框架,仅用5k行Python代码,即实现了高性能LLM推理,支持Radix Attention、Chunked Prefill、Overlap Scheduling和Tensor Parallelism等先进特性。它兼容OpenAI API,支持Llama-3和Qwen-3模型,适合学习和研究原型开发。基准测试显示,在H200 GPU上,Mini-SGLang的离线吞吐量超越Nano-vLLM,在线服务延迟与SGLang相当。通过Overlap Scheduling有效隐藏CPU开销,利用FlashAttention-3和FlashInfer内核,确保顶尖性能。该框架提供交互Shell模式、NVTX注解和基准工具,便于调试和比较vLLM、TensorRT-LLM等系统。(128字)

LMSYS Mini-SGLang LLM推理
208 02-04

SGLang 赋能扩散大模型:即日支持 LLaDA 2.0

我们兴奋地推出 SGLang 中的 Diffusion Large Language Model (dLLM) 框架设计与实现。通过利用现有的 ChunkedPrefill 机制,该系统实现了无缝集成、无需核心架构变更、继承现有推理优化,并提供最大灵活性让用户自定义扩散解码算法。LLaDA 作为首款 dLLM,展现出优异的数据理解能力和更快推理速度,尤其在低延迟小批量场景。面对大规模 dLLM 如 100B LLaDA2.0-flash 的评估与 RL 后训练挑战,现有的推理引擎不足以支撑。我们在 SGLang 中引入 Block Diffusion 支持,利用 Chunked-Prefill 管道,仅微调关键组件,实现高效批处理与流式输出,显著提升吞吐量(如 LLaDA2.0-flash-CAP 达 935 tokens/s)。(128字)

LMSYS SGLang dLLM
189 02-04

SpecBundle与SpecForge v0.2:生产级推测解码模型与框架重磅发布

SpecForge团队携手蚂蚁集团、Meituan、Nex-AGI和EigenAI等行业伙伴,推出SpecBundle(Phase 1),这是基于大规模数据集训练的生产级EAGLE3模型检查点集合,旨在提升推测解码的可用性和实际性能,第一阶段聚焦指令微调模型。同时,SpecForge v0.2带来重大系统升级,包括全面重构以提升易用性,并支持多执行后端,进一步增强可扩展性和生产就绪度。该举措解决开源社区中推测解码工具匮乏、高质量草稿模型稀缺以及训练数据规模不足等问题,推动EAGLE3等SOTA方法在本地和企业部署中的广泛应用。(128字)

LMSYS 推测解码 SpecForge
166 02-04

SGLang 中的 EPD 解耦:视觉语言模型弹性编码器扩展

SGLang 引入 Encoder-Prefill-Decode (EPD) 解耦架构,将视觉语言模型 (VLMs) 中的视觉编码与语言处理分离,实现视觉编码容量的独立水平扩展,提升资源利用率。该方案兼容现有的 Prefill-Decode (PD) 解耦,形成三层架构,支持多种传输后端和视觉嵌入缓存。在图像密集场景下,EPD 显著降低 TTFT(首 Token 时间),负载下比同置部署低 6–8 倍;吞吐量提升约 2 倍。但图像稀疏场景可能引入额外网络延迟。基准测试基于 Qwen3-VL-235B,在 8 张 H20 GPU 上验证其在多图像请求中的优势。(128 字)

LMSYS SGLang EPD
204 02-04

单H200部署1TB模型:INT4 QAT RL端到端实践

受Kimi K2团队启发,SGLang RL团队成功实现INT4 Quantization-Aware Training (QAT)全流程。通过训练阶段的fake quantization和推理阶段的真实W4A16量化,实现了与BF16全精度相当的稳定性和训推一致性。极致INT4压缩让约1TB规模模型单节点H200(141GB)部署,避免跨节点通信瓶颈,大幅提升部署效率。本文详解开源生态下完整pipeline的技术细节,提供高性能低成本的实用参考。项目由SGLang RL、InfiXAI、蚂蚁集团Asystem & AQ Infra、slime和RadixArk团队联合完成,已同步至slime和Miles社区。(128字)

LMSYS INT4 QAT 量化感知训练
181 02-04

SGLang优化GLM4-MoE生产部署:TTFT提升65%

Novita AI针对基于SGLang的GLM4-MoE模型开发了一系列生产验证的高效优化策略,涵盖从内核执行到跨节点数据传输的整个推理管道。通过Shared Experts Fusion和Suffix Decoding等技术,在代理编码工作负载下实现了TTFT降低高达65%、TPOT提升22%的显著性能提升。这些优化已在H200集群的TP8和FP8配置上验证,提供高吞吐量与低延迟的生产蓝图。基准测试显示,在输入长度4096、输出1000的场景下,请求率达14 req/s时效果显著。所有优化已部分上游合并,并开源复现脚本。

LMSYS GLM4-MoE SGLang
197 02-04

Firefox即将一键禁用所有AI功能:Mozilla宣布在浏览器设置中添加“阻塞AI开关”

Mozilla宣布Firefox 148将新增‘阻塞AI增强’全局开关,一键禁用浏览器内所有生成式AI特性,包括翻译、PDF图像生成等。该功能源于用户反馈,优先隐私保护,已在X平台引发热议,成为反AI强推的标志性举措。预计2月24日正式发布。

Firefox Mozilla AI隐私
108 02-04
MIT

微生物革命:提取清洁技术所需关键金属

在美国密歇根州上半岛的松林中,美国唯一活跃的镍矿Eagle Mine即将走向寿命终点。正值汽车制造商为电动车电池急需镍之际,该矿镍浓度持续下降,可能很快低到不值得开采。今年早些时候,一项创新研究显示,微生物或许能从低品位矿石或尾矿中高效提取镍,推动清洁技术发展。这不仅缓解供应短缺,还提供更环保的替代方案,标志着生物采矿技术的突破性应用。

生物采矿 镍金属 电动车电池
102 02-04
AIN

FedEx 测试 AI 在包裹追踪与退货管理的极限

FedEx 正利用 AI 革新大企业发货商的包裹追踪和退货流程。对于高货量企业,追踪不再止于仓库出货,而是提供实时更新、灵活交付选项和高效退货,避免支持票据或延误。这种压力推动 FedEx 探索 AI 的边界,帮助企业优化供应链,提升客户满意度。该技术有望重塑物流行业。

FedEx AI物流 包裹追踪
95 02-04
AIN

Apptio:规模化智能自动化为何需财务严谨

Apptio(IBM公司)EMEA区现场CTO Greg Holmes指出,成功扩展智能自动化离不开财务严谨管理。传统‘建好他们就来’的技术采用模式在自动化领域往往导致预算缺口。企业高管常发现,试点项目虽成功,却难以转化为可持续的企业级部署。本文深入剖析这一痛点,探讨如何通过财务工具实现自动化规模化,助力企业数字化转型。

智能自动化 财务管理 Apptio
100 02-04
AIN

SENEN集团CEO:企业AI为何现在该‘务实落地’

在开启AI之旅前,先检查数据状态——数据质量是企业AI沉船的最大隐患。Gartner数据显示,数据质量差每年导致企业平均损失1290万美元。SENEN集团CEO Ronnie Sheth强调,现在是企业AI从炒作出生产落地的关键时刻。他呼吁企业注重数据治理、实用应用,避免资源浪费,推动AI真正创造价值。本文深度剖析企业AI务实路径,结合行业背景与专家观点。

企业AI 数据质量 AI落地
110 02-04
WD

《辐射》制作人诺兰论AI:'我们正处泡沫狂热时刻'

《西部世界》主创乔纳森·诺兰在接受WIRED采访时表示,AI技术将造福新兴电影制作人,帮助他们降低创作门槛,但对好莱坞大片而言,AI难以取代核心创意。他将当前AI热潮比作“泡沫时刻”,强调技术虽强大,却需理性看待。诺兰以自身《辐射》剧集为例,探讨AI在影视行业的双刃剑效应,同时警示好莱坞巨头勿过度依赖AI,以免扼杀人类叙事魅力。(128字)

AI影视 乔纳森·诺兰 好莱坞
114 02-04
MIT

《下载》:老矿榨取更多金属,AI深陷真相危机

本期《下载》聚焦两大科技前沿:在美国密歇根州唯一活跃镍矿即将枯竭之际,微生物技术或能从老矿中高效提取清洁能源所需金属,推动电动车电池等领域的可持续发展。同时,AI模型的‘幻觉’问题日益严峻,生成虚假信息引发信任危机。本新闻通讯剖析这些创新与挑战,揭示科技如何应对资源短缺与信息真实性考验。(128字)

生物采矿 清洁能源金属 AI幻觉
107 02-04
TC

Peak XV:内部分歧致合伙人离职,正加倍押注AI

Peak XV Partners表示,近期多名合伙人离职源于内部意见分歧。公司正调整董事会角色、开设美国办公室,同时继续视印度为其最大市场。尽管面临变动,Peak XV强调将加倍投资AI领域,以抓住全球科技浪潮。该举措反映了风险投资行业在AI热潮下的战略转型,也凸显印度作为新兴市场的重要地位。(128字)

Peak XV AI投资 风险投资
94 02-04
TC

Fitbit创始人推出AI平台Luffu,助力家庭健康守护

Fitbit联合创始人詹姆斯·帕克和埃里克·弗里德曼推出新AI平台Luffu,专为家庭健康监测设计。该平台在后台悄然运行,利用AI收集并整理家庭成员信息,学习日常行为模式,并及时标记异常变化,帮助家庭保持健康同步,及早应对潜在福祉问题。作为可穿戴设备领域的先驱,此举标志着他们从个人健身追踪转向家庭整体健康管理,契合当下AI健康科技浪潮。(128字)

AI健康平台 Fitbit创始人 家庭健康监测
103 02-04

AI助力教育变革:中国市场迎来智能学习新纪元

在中国,AI技术正迅速渗透教育行业,推动一场前所未有的学习方式变革。智能学习平台和应用程序层出不穷,不仅提升了教学效率,更为个性化教育提供了新的可能性。

AI教育 中国市场 智能学习
92 02-04

AI时代的伦理考验:数据隐私与道德边界的博弈

在人工智能迅速发展的背景下,数据隐私和道德边界的问题成为了一个迫切的社会议题。如何在技术进步与伦理规范之间取得平衡,成为行业内外关注的焦点。

AI伦理 数据隐私 道德
142 02-04

Karpathy新作nanochat:百元级训练GPT-2模型,AI开源再掀波澜

前OpenAI和Tesla AI负责人Andrej Karpathy推出nanochat仓库,仅需约73美元和3小时,即可在单8xH100节点训练出媲美GPT-2的LLM。全栈工具链从预训练到聊天UI一应俱全,代码简洁高效,获GitHub 41.9k星,X平台热议不断,推动大模型训练门槛大幅降低。

Andrej Karpathy nanochat LLM训练
121 02-04

Claude-Mem:Claude Code持久记忆插件爆火GitHub,开发者痛点终获解决

Claude Code用户长期饱受上下文丢失之苦,如今开源插件Claude-Mem横空出世,赋予AI持久记忆能力。GitHub星标飙升至19.5k,token用量降95%,工具调用增20倍。X平台开发者热议不断,本地隐私存储让它迅速成为必备神器。

AI工具 Claude Code GitHub热议
194 02-04

NVIDIA Blackwell B200芯片订单爆满,交付延期至2025年引发供应链热议

NVIDIA最新Blackwell B200 AI芯片订单火爆,企业争相抢购导致交付延至2025年。此消息引发市场热议,凸显AI算力需求井喷下的硬件瓶颈,NVIDIA股价短期波动。业内分析称,这反映出AI基础设施建设的紧迫性与全球供应链压力。

NVIDIA Blackwell AI芯片
145 02-04

Claude 3.5 Sonnet编码测试破90%:AI编程能力逼近人类水平

Anthropic Claude 3.5 Sonnet在SWE-bench基准测试中得分超90%,刷新纪录,开发者项目分享爆棚,X平台互动达15万。这一‘人类级’编程能力引发热议:AI能否取代程序员?本文深度剖析技术突破与行业影响。(98字)

Claude 3.5 Anthropic SWE-bench
144 02-04

Google Gemini 2.0 Flash正式发布:轻量高速多模态AI模型重塑实时应用

Google近日推出Gemini 2.0 Flash,轻量级多模态AI模型,以超低延迟和高效性能著称。开发者基准测试互动超10万次,适用于实时交互场景,推动浏览器AI深度集成。该模型标志着AI向更普适、快速方向演进。

Gemini 2.0 Google 多模态AI
110 02-04

AI深度伪造视频泛滥X平台:美国大选诚信面临严峻考验

AI生成的拜登和特朗普假视频在X平台病毒式传播,FBI发出警告,转发量超百万。事件引发平台审核无力与AI水印法规的激烈争议,互动量逾30万,选举诚信成焦点。

Deepfake 美国选举 AI滥用
111 02-04

DeepSeek-V2中文能力超GPT-4o:中国开源AI高效新突破

中国AI企业DeepSeek发布V2模型,在多项中文基准测试中超越GPT-4o,总参数仅236B却实现高效推理。该模型开源后迅速走红,X平台用户测试分享互动超15万,引发本土AI崛起与‘弯道超车’热议。

DeepSeek 中文AI 中国AI
122 02-04
11 12 13 14 15

© 1998-2026 嬴政天下 All rights reserved.

继续秉承 我为人人 · 人人为我 的精神,始于1998,再启航于2025

关于赢政天下 投稿 RSS Sitemap 隐私政策 服务条款