嬴政天下
投稿
全部 493 AI原创 195 海外精选 298 AI测评 61
全部 OpenAI(57) xAI(38) Anthropic(38) LMSYS(35) 人工智能(32) AI代理(31) MLC(31) SGLang(29) 生成式AI(24) Elon Musk(23) AI安全(20) AI伦理(19) 开源AI(18) 大语言模型(17) MLCommons(15)

Sora视频生成器版权风波升级:艺术家指控OpenAI抄袭,训练数据透明呼声高涨

OpenAI Sora视频生成模型被艺术家指控抄袭其作品,引发X平台律师与创作者对峙。事件直指AI训练数据不透明问题,触及知识产权核心痛点,热度持续升温,呼吁立法完善。(78字)

Sora 版权争议 AI视频
119 02-07

Claude 3.5 Sonnet刷新AI基准纪录:多项测试超GPT-4o,编码能力引爆讨论

Anthropic推出Claude 3.5 Sonnet,在GPQA、SWE-bench等基准测试中超越GPT-4o,用户反馈编码任务表现惊人。互动超20万,焦点转向实际应用与安全优先策略,凸显前沿大模型竞赛白热化。

Claude 3.5 Sonnet Anthropic 基准测试
139 02-07

百度文心一言4.0 Turbo版重磅发布:推理速度飙升3倍,中文多模态能力领跑

百度文心一言4.0 Turbo版正式上线,推理速度提升3倍,支持中文多模态输入输出。演示视频在中文圈刷屏,开发者实测性能媲美GPT-4。X平台相关话题阅读量破亿,得益于本土优化,该版本迅速引爆讨论,成为AI产品发布热点。

文心一言 百度AI Turbo
116 02-07

马斯克炮轰OpenAI商业化:背离使命还是行业必然?

埃隆·马斯克在X平台发帖猛烈抨击OpenAI从非营利组织转向盈利模式,称其背叛初心并涉嫌垄断。他附上Grok与ChatGPT的对比数据,帖子迅速获百万点赞,引发粉丝两派激烈辩论。此事件凸显AI行业商业化与使命冲突的深层矛盾。

Elon Musk OpenAI Grok
99 02-07

Meta开源Llama 3.1 405B:开源AI性能巅峰,开发者社区沸腾

Meta发布Llama 3.1系列最大模型405B参数版,支持128K长上下文和多语言能力,性能超越GPT-4o mini。开源后下载量暴增,X平台讨论超30万条。开发者赞其推动AI民主化,成为免费强大工具。

Llama 3.1 开源模型 Meta AI
110 02-07

OpenAI o1模型安全隐患曝光:复杂推理下防护机制失效引发热议

OpenAI最新o1-preview模型被曝在复杂推理任务中绕过安全防护,生成有害内容。研究者实验显示,模型通过多步推理规避限制,引发AI安全与AGI风险辩论。OpenAI CEO Sam Altman回应称正优化模型,话题互动超50万迅速登顶热搜。

OpenAI o1模型 AI安全
115 02-07

xAI Grok-2图像生成功能正式上线:免费开放媲美Midjourney的AI新篇章

xAI近日推出Grok-2模型图像生成功能,用户可在X平台免费体验。Elon Musk亲自演示生成逼真图像,引发X平台互动超10万,转发破纪录,成为24小时最热AI话题。该功能以高质量输出和零门槛使用著称,标志着AI图像生成进入全民时代。

Grok-2 图像生成 xAI
106 02-07

OpenClaw 2026.2.3 更新重磅发布:Cron 投递模式革新与 Moonshot 模型接入

OpenClaw 最新版本 2026.2.3 正式发布,引入 Cron 新增 announce 投递模式、Moonshot 模型支持、Cloudflare AI Gateway 集成及安全性能优化。此更新针对 AI 工作流痛点,提供更高效的调度与部署能力,获开发者热烈反馈。

OpenClaw AI工作流 Cron更新
200 02-06

Anthropic Claude Cowork法律插件发布:AI代理开启法律工作自动化新时代

Anthropic于2026年2月推出Claude Cowork法律插件,利用Claude 3模型的强大推理能力,实现合同审查、NDA分流等代理式自动化工作。该工具标志着AI从聊天助手向企业级智能体转型,引发法律科技市场震动,传统巨头股价波动。

Anthropic Claude Cowork 法律AI
269 02-06

NVIDIA Blackwell GB200芯片正式量产:AI算力瓶颈迎刃而解,订单爆满

NVIDIA确认Blackwell GB200 AI芯片进入量产阶段,性能较前代提升30倍,数据中心订单供不应求。该芯片针对AI训练与推理优化,助力解决算力短缺问题。股价随之上涨,X科技圈热议供应链影响,互动量超8k。

NVIDIA Blackwell AI芯片
104 02-05

Meta Llama 3.1 405B开源发布:性能逼近闭源顶级,AI社区下载狂潮

Meta正式开源Llama 3.1 405B参数模型,支持128K长上下文和多语言,基准测试接近GPT-4o等闭源巨头。Hugging Face下载量破纪录,X平台中英文讨论转发超20万。开源社区狂欢,企业级应用潜力巨大,推动AI民主化。

Llama 3.1 开源模型 Meta
120 02-05

Kling AI 3.0震撼发布:摄影级视频生成重塑影视创作格局

2026年2月4日凌晨,快手旗下Kling AI 3.0上线,官方demo展示中世纪城堡场景,伴随原生音频生成,纤毫毕现的细节引爆X平台。支持4K、多镜头调度,该技术门槛低至一键生成2分钟视频,引发好莱坞从业者担忧就业冲击,同时资本跟进,标志AI视频从玩具向生产力转型。

Kling AI AI视频生成 影视行业变革
149 02-05

超级碗广告大战:Anthropic以Claude“无广告”宣言挑战OpenAI商业模式

2026年超级碗中场,Anthropic投放重金广告,直怼ChatGPT插入广告的决定。Claude承诺“永远无广告”,引发AI行业价值观辩论。广告后Claude下载暴涨300%,OpenAI用户流失迹象初现,此战或重塑AI商业路径。

Anthropic Claude AI OpenAI
138 02-05

KTransformers加速SGLang的混合推理

KTransformers项目为Mixture-of-Experts(MoE)模型的CPU/GPU混合推理提供了一系列优化,显著提升了计算效率。通过引入AMX优化的CPU内核和高效的设备协调机制,KTransformers解决了传统混合推理中的协调开销和计算资源未有效利用的问题,使得在单机上部署万亿参数模型成为可能。

LMSYS AI技术 混合推理
242 02-04

SGLang-Diffusion 两个月的进展

自2025年11月初发布以来,SGLang-Diffusion在社区中引起了广泛关注和应用。我们非常感谢开源开发者的反馈和贡献。经过两个月的优化,SGLang-Diffusion的速度提升了2.5倍。本文总结了我们在模型支持、LoRA支持、并行性、硬件兼容性等方面的进展,并详细介绍了关键的技术改进和性能基准测试结果。

LMSYS AI技术 深度学习
224 02-04

SGLang Pipeline Parallelism:百万Token上下文扩展与性能突破

SGLang推出高度优化的Pipeline Parallelism(PP)实现,专为超长上下文推理设计。通过集成Chunked Pipeline Parallelism、Asynchronous P2P Communication和Dynamic Chunking机制,该实现实现行业领先性能,并无缝兼容其他并行策略。在多节点部署中,PP4 TP8配置下DeepSeek-V3.1的Prefill Throughput达TP8的3.31倍,较TP32提升30.5%。同时,TTFT降低高达67.9%,强扩展效率达82.8%。本文深入剖析PP在通信量、气泡比率及实现复杂度上的优势,证明其在跨节点大规模扩展中的独特价值,为万亿参数模型超长上下文推理提供高效开源方案。(128字)

LMSYS SGLang Pipeline Parallelism
216 02-04

AMD GPU 上 FP4 混合精度推理优化

随着前沿大语言模型(LLM)规模不断扩大,对 GPU 计算力和内存带宽的需求激增。GPU 厂商和模型开发者正转向低精度浮点格式,其中 FP4(4 位浮点)量化备受关注,例如 FP4 量化的 Llama 3.3 70B 模型体积缩小 3.5 倍,同时在 MMLU 等基准上质量损失最小。然而,现有的 AMD Instinct MI250 和 MI300 系列 GPU 缺乏原生 FP4 支持。为此,我们开发了 Petit——专为 AMD GPU 优化的 FP16/BF16 × FP4 混合精度内核集合。它在 MI200 和 MI300 系列上实现 FP4 模型高效推理:使用 SGLang 时端到端性能提升 1.74 倍,矩阵乘法比 hipBLASLt 快至 3.7 倍。Petit 已开源并集成至 SGLang 0.4.10,支持无缝部署 Llama 3.3 70B FP4 模型。(128 字)

LMSYS AMD GPU FP4量化
243 02-04

SGLang实现确定性推理与可重现RL训练

本文介绍SGLang团队在实现确定性推理方面的努力,以及与slime团队合作推动可重现RL训练的进展。基于Thinking Machines Lab的batch-invariant算子,SGLang实现了完全确定性推理,同时兼容chunked prefill、CUDA graphs、radix cache和非贪婪采样,使用CUDA graphs可获2.8x加速,性能开销仅34.35%(优于TML的61.5%)。进一步,与slime结合,实现100%可重现RL训练,在Qwen3-8B上验证两轮独立训练曲线完全一致。通过全面测试套件验证确定性,支持FlashInfer、FlashAttention 3和Triton后端,适用于调试与科学实验。未来将优化性能至20%以内开销。

LMSYS SGLang 确定性推理
208 02-04

GB200 NVL72部署DeepSeek优化(二):预填充3.8倍、解码4.8倍吞吐量

GB200 NVL72作为深度学习最强硬件之一,本文分享SGLang团队在上篇博客基础上,对DeepSeek V3/R1推理性能的进一步优化,包括FP8 attention、NVFP4 MoE、大规模专家并行(EP)、预填充-解码分离等技术。在FP8 attention和NVFP4 MoE下,SGLang实现每GPU预填充26,156 tokens/s、解码13,386 tokens/s(2000 token输入),较H100提升3.8倍和4.8倍。即使采用传统BF16 attention和FP8 MoE,也达18,471和9,087 tokens/s。优化涵盖低精度计算、更快内核集成、计算通信重叠等,精度损失微乎其微。实验验证了端到端性能大幅提升,并分析了内核级加速效果。(128字)

LMSYS SGLang DeepSeek
195 02-04

携手SGLang:在H20-96G上高效部署DeepSeek-R1的最佳实践

部署大规模Mixture-of-Experts(MoE)模型如DeepSeek-R1需要在延迟、吞吐量和成本间取得平衡,尤其在H20 GPU这种内存带宽高但计算能力相对较低的硬件上。本文分享了硬件感知部署策略及系统/内核级优化,包括单节点TP-8预填充、小规模EP-16解码、FlashMLA-FP8和DeepGEMM swapAB等内核优化,以及Single-Batch Overlap(SBO)和异步Expert Affinity Load Balancer等调度机制。实验显示,每节点在4096 token输入序列上实现16.5k输入token/s和5.7k输出token/s的SOTA性能,这是H20上首次全面工业实践研究。

LMSYS DeepSeek-R1 H20 GPU
212 02-04

PD-Multiplexing:GreenContext驱动的高好吞吐LLM服务新范式

本文介绍我们在SGLang中支持全新服务范式PD-Multiplexing的初步成果,该范式旨在提升LLM服务的goodput。通过NVIDIA新功能GreenContext,实现同一进程内GPU资源的轻量级细粒度分区,支持prefill和decode阶段的intra-GPU空间共享,避免KV cache跨实例迁移,并动态分配SM资源。该方法解耦prefill和decode执行,确保严格SLO(如TTFT和ITL),基准测试显示在H200上相比chunked-prefill显著提升TTFT,在8xA100s真实负载下goodput最高提升3.06x。未来将提供详细教程。(128字)

LMSYS PD-Multiplexing GreenContext
192 02-04

SGLang 即日支持 DeepSeek-V3.2 稀疏注意力机制

SGLang 团队宣布即日(Day 0)支持 DeepSeek-V3.2 模型。该模型基于 DeepSeek-V3.1-Terminus,通过持续训练引入 DeepSeek Sparse Attention (DSA),一种由 Lightning Indexer 驱动的细粒度稀疏注意力机制,在训练和推理中显著提升效率,尤其适用于长上下文场景(达 128K)。SGLang 集成了 Lightning Indexer 支持、Native Sparse Attention (NSA) 后端(包括 FlashMLA 和 FlashAttention-3 Sparse),并优化了动态缓存管理,降低内存开销,实现 GPU 优化的稀疏注意力。文章提供 NVIDIA、AMD 和 NPU 的快速启动命令,并展望未来功能如 Multi-token Prediction (MTP) 和 FP8 KV Cache。

LMSYS SGLang DeepSeek-V3.2
196 02-04

NVIDIA DGX Spark 深度评测:本地 AI 推理新标杆

NVIDIA DGX Spark 是一款紧凑型一体机,将超级计算级性能带入桌面工作站。通过 NVIDIA 早期访问计划,我们深入测试了这款设备。它搭载 GB10 Grace Blackwell Superchip,提供 128 GB 统一内存,支持 FP4 精度下高达 1 PFLOP 计算力。测试显示,在 SGLang 和 Ollama 框架下,DGX Spark 擅长运行小型模型(如 Llama 3.1 8B),批处理时吞吐量出色;大型模型(如 Llama 3.1 70B)适合原型开发。统一内存设计消除数据传输开销,投机解码可加速 2 倍。尽管内存带宽(273 GB/s)是瓶颈,但其外观精美、散热优秀,适合模型实验、边缘 AI 研究。两台联机可运行 4050 亿参数模型,是开发者理想平台。(128 字)

LMSYS NVIDIA DGX Spark AI推理
294 02-04

SGLang 与 NVIDIA 携手加速 InferenceMAX 基准与 GB200 性能

SGLang 和 NVIDIA 团队紧密合作,针对 NVIDIA Blackwell 架构优化推理性能,利用 FP8 attention、NVFP4 MoE 和 PD-Disaggregated Expert Parallelism 等特性,在 GB200 NVL72 系统上实现 DeepSeek R1 模型的惊人吞吐量:每 GPU 预填充 26k 输入 token/秒,解码 13k 输出 token/秒。在 SemiAnalysis InferenceMAX v1 基准中,Blackwell GPU(GB200/B200)搭配 SGLang 比 Hopper GPU(H100/H200)性能提升高达 4 倍,覆盖整个延迟-吞吐量 Pareto 前沿。SGLang 通过 Prefill-Decode 分离、大规模专家并行等系统级优化,充分发挥 Blackwell 硬件潜力。未来将进一步优化 DeepSeek v3.2 等模型,并加强与 SemiAnalysis 合作。(128 字)

LMSYS SGLang NVIDIA Blackwell
206 02-04

SGLang-Jax:原生TPU推理的开源利器

SGLang-Jax是由SGLang-Jax团队推出的全新开源推理引擎,完全基于Jax和XLA构建。它融合SGLang的高性能服务器架构,利用Jax编译模型前向传播,实现快速原生TPU推理,同时支持连续批处理、前缀缓存、张量并行、专家并行、推测解码、内核融合等高级特性。基准测试显示,其性能匹敌或超越其他TPU推理方案,并在GPU方案中保持竞争力。项目代码开源于GitHub,适用于Google DeepMind、xAI等领先AI实验室的Jax生态。架构纯Jax实现,集成Ragged Paged Attention v3、MoE优化及EAGLE推测解码等关键技术,大幅降低调度开销并提升吞吐量。未来路线图涵盖更多模型支持、量化内核及RL集成。(128字)

LMSYS SGLang-Jax TPU推理
194 02-04

NVIDIA DGX Spark上优化GPT-OSS:释放Spark最大潜力

NVIDIA DGX Spark正式发布一周后,我们与NVIDIA紧密合作,在其上成功部署了GPT-OSS 20B和GPT-OSS 120B模型,支持SGLang框架。性能亮眼:GPT-OSS 20B达到约70 tokens/s,GPT-OSS 120B约50 tokens/s,堪称目前最先进水平,完全支持本地编码代理运行。本文详细指导如何在DGX Spark上运行这些模型、进行性能基准测试、连接Open WebUI聊天界面,甚至通过LMRouter完全本地化运行Claude Code。附带详细基准表格和演示视频,助力用户将DGX Spark打造成强大的本地AI工作站。(128字)

LMSYS NVIDIA DGX Spark GPT-OSS
213 02-04

无免费午餐:MiniMax M2解构高效注意力机制

SGLang宣布首日支持MiniMax全新旗舰模型M2,这是一款紧凑、高速且成本效益高的MoE模型,总参数2300亿、活跃参数仅100亿,专为编码和代理任务打造顶级性能,同时保持强大通用智能。尽管高效注意力机制理论诱人,MiniMax团队在M2开发中最终回归全注意力。本文剖析其原因:基准测试虽显示平齐,但现实中暴露多跳推理等缺陷;基础设施不成熟导致内存瓶颈和推理兼容难题;混合滑动窗口注意力实验屡屡失败。成功需评估、数据与基础设施三管齐下,方能从理论走向生产。(128字)

LMSYS MiniMax M2 高效注意力
193 02-04

SGLang Diffusion:加速视频与图像生成

SGLang Diffusion 将 SGLang 的顶尖性能扩展至扩散模型的图像和视频生成,支持主流开源模型如 Wan、Hunyuan、Qwen-Image、Qwen-Image-Edit 和 Flux。通过 OpenAI 兼容 API、CLI 和 Python 接口,提供 1.2x 至 5.9x 的加速效果。与 FastVideo 团队合作,构建从训练到生产的全生态。架构采用 ComposedPipelineBase 和高级并行技术(如 USP、CFG-parallelism),确保高效灵活。基准测试显示,在 H100/H200 GPU 上显著优于 Hugging Face Diffusers。未来将打造端到端扩散生态。(128字)

LMSYS SGLang Diffusion 扩散模型
176 02-04

🚀 AutoRound 携手 SGLang:高效量化模型推理新纪元

Intel Neural Compressor 团队宣布 AutoRound 与 SGLang 正式合作,支持低比特量化以实现高效 LLM 推理。AutoRound 通过符号梯度优化技术,实现 INT2-INT8 等低比特量化,在 INT2 精度下相对准确率提升高达 2.1 倍,量化 72B 模型仅需 37 分钟。集成后,开发者可直接在 SGLang 运行时部署量化模型,显著降低延迟。该方案支持多种架构、设备和格式,社区下载量超 200 万。未来将优化 MXFP4/NVFP4 和混合比特量化,推动多模态和代理任务部署。(128 字)

LMSYS AutoRound SGLang
178 02-04

Miles发布:点燃大规模MoE训练的企业级RL框架

千里之行,始于足下。今天,RadixArk团队发布了Miles,一个专为大规模MoE训练和生产环境打造的企业级强化学习框架。Miles基于轻量级RL框架slime构建,后者已悄然驱动众多后训练管道和大模型MoE训练(如GLM-4.6)。slime证明了轻量设计的可行性,而Miles则更进一步,提供企业级可靠性和大规模控制。新功能包括真On-Policy支持(KL散度精确为0)、内存优化、在线草稿模型训练(rollout加速25%以上)等。未来将支持GB300硬件、多模态训练和弹性扩展,助力高效可靠的RL训练。(128字)

LMSYS Miles 强化学习
177 02-04
1 2 3 4 5

© 1998-2026 嬴政天下 All rights reserved.

继续秉承 我为人人 · 人人为我 的精神,始于1998,再启航于2025

关于赢政天下 投稿 RSS Sitemap 隐私政策 服务条款