股票市场分析 英伟达下场,初次优化DeepSeek-R1!B200性能狂飙25倍,碾压H100

发布日期:2025-02-27 11:10    点击次数:145


股票市场分析 英伟达下场,初次优化DeepSeek-R1!B200性能狂飙25倍,碾压H100

当FP4的魔法与Blackwell的雄伟算力相遇,会碰撞出何如的火花?

谜底是:推感性能暴涨25倍,资本狂降20倍!

跟着DeepSeek-R1土产货化部署的爆火,英伟达也切身下场,开源了首个基于Blackwell架构的优化决策——DeepSeek-R1-FP4。

在新模子的加抓下,B200已毕了高达21,088 token每秒的的推理婉曲量,比拟于H100的844 token每秒,进步了25倍。

与此同期,每token的资本也已毕了20倍的裁减。

通过在Blackwell架构上应用TensorRT DeepSeek优化,英伟达让具有FP4分娩级精度的模子,在MMLU通用智能基准测试中达到了FP8模子性能的99.8%。

DeepSeek-R1初次基于Blackwell GPU优化

当今,英伟达基于FP4优化的DeepSeek-R1查验点现已在Hugging Face上开源。

模子地址:https://huggingface.co/nvidia/DeepSeek-R1-FP4

后教练量化

模子将Transformer模块内的线性算子的权重和激活量化到了FP4,适用于TensorRT-LLM推理。

这种优化将每个参数从8位减少到4位,从而让磁盘空间和GPU显存的需求减少了约1.6倍。

使用TensorRT-LLM部署

要使用TensorRT-LLM LLM API部署量化后的FP4权重文献,并为给定的教唆生成文本反应,请参照以下示例代码:

硬件要求:需要提拔TensorRT-LLM的英伟达GPU(如B200),而且需要8个GPU来已毕tensor_parallel_size=8的张量并行。

性能优化:代码运用FP4量化、TensorRT引擎和并行意想打算,旨在已毕高效、低资本的推理,适应分娩环境或高婉曲量应用。

关于这次优化的遵循,网友示意艳羡。

「FP4魔法让AI改日依然厉害!」网友Isha驳斥谈。

网友algorusty则宣称,有了这次的优化后,好意思国供应商随机以每百万token 0.25好意思元的价钱提供R1。

「还会成心润。」

网友Phil则将这次的优化与DeepSeek本周的开源5连发结合了起来。

「这展示了硬件和开源模子结合的可能性。」他示意。

DeepSeek全面开源如今DeepSeek抓续5天的「开源周」照旧进行到了第3天。

周一,他们开源了FlashMLA。这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核,相等针对变长序列进行了优化,当今已厚爱投产使用。

周二开源了DeepEP,这是一个专为搀杂民众系统(MoE)和民众并行(EP)想象的通讯库。

周三开源的是DeepGEMM。这是一个提拔繁密和MoE模子的FP8 GEMM(通用矩阵乘法)意想打算库,可为V3/R1的教练和推理提供雄伟提拔。

总的来说,不论是英伟达开源的DeepSeek-R1-FP4,照旧DeepSeek开源的三个仓库,齐是通过对英伟达GPU和集群的优化,来鼓吹AI模子的高效意想打算和部署。

本文来源:新智元,原文标题:《英伟达下场,初次优化DeepSeek-R1!B200性能狂飙25倍,碾压H100》

风险教唆及免责要求 市集有风险,投资需严慎。本文不组成个东谈主投资提议,也未商酌到个别用户出奇的投资见识、财务情景或需要。用户应试虑本文中的任何意见、不雅点或论断是否适应其特定情景。据此投资,包袱兴盛。


Powered by 金融观察网 @2013-2022 RSS地图 HTML地图