强烈推荐!满血DeepSeek-R1 671B 英伟达H20单机/双机FP8精度并发压力测试

强烈推荐!满血DeepSeek-R1 671B 英伟达H20单机/双机FP8精度并发压力测试

原创 宽恒科技 宽恒科技 2025年03月06日 18:40 广东 4人

20250221671B最佳实践.png

我们近期推出了DeepSeek-R1 671B FP8原厂精度最佳实践,对应推荐配置是H20 96/141GB * 8。本文将详细介绍并发性能测试结果,包含单台、双台H20的测试对比:
注:以下数据均由宽恒科技前沿技术研究院实测得出结果仅供参考最终落地的实际性能稍有差异

单机结论并发数<40,吞吐率>16 tokens/s测试版本DeepSeek-R1 671B测试精度FP8测试框架vllm 0.7.2测试环境CPUIntel Xeon MAX 9468 * 2GPUNVIDIA H20 96GB * 8GPU Driver

Driver Version:560.35.05

CUDA Version:12.6网络Ethernet 25 Gb/sec(1X EDR)DeepSeek-R1 671B H20 96GB * 8 并发测试结果

batch size

并发数

requests

请求数

TTFT

(s)

throughout

tokens/s1101.1524.2110100.4820.4520200.4818.2530300.5317.4540400.5316.865050OOM

幻灯片1.jpeg

测试小结:

1、面对普通问答对话场景,单台H20 96GB * 8最大并发数在40左右,并发数<40,吞吐率>16 tokens/s

2、若并发数超过50,则会遇到OOM(Out Of Memory)爆显存无法完成请求

推荐应用场景:

因单机H20仅能跑4K上下文分析,适合100-200员工数,人均中低频率使用,不需要构建知识库的企业。本地化部署满血版,用于员工基础问答对话,或是上传企业隐私文件,实现快速分析优化。

单机模拟P.jpg

模拟单个用户真实对话场景

TTFT 0.24s

吞吐率24 tokens/s

符合性能预期

双机结论并发数<300,吞吐率>8 tokens/s测试版本DeepSeek-R1 671B测试精度FP8测试框架SGLang 0.4.3(结果优于vllm)测试环境CPUIntel Xeon MAX 9468 * 4GPUNVIDIA H20 96GB * 16GPU Driver

Driver Version:560.35.05

CUDA Version:12.6网络Ethernet 25 Gbps
DeepSeek-R1 671B H20 96GB * 16 并发测试结果

batch size

并发数

requests

请求数

TTFT

(s)

throughout

tokens/s1102.3521.6210100.6217.9920200.7416.7830301.0816.6140400.6815.4250500.7714.6160600.7513.941001000.9713.162002001.5210.333003001.958.974004002.186.265005002.675.25

幻灯片2.jpeg

测试小结:

1、面对普通问答对话场景,2台H20 96GB * 8最大并发数在300左右,并发数<300,吞吐率>8 tokens/s

2、若并发数超过400,则不稳定,可能遇到任务运算失败的情况

推荐应用场景:

双机H20能跑满128K上下文分析,适合200以上员工数,人均中高频率使用,或者需要构建知识库的企业。本地化部署满血版,结合RAG知识库及其他多模态大模型,实现员工基于企业知识库,多轮对话实现复杂数据分析、方案撰写等需求,或是代码生成、PPT生成等。

双机模拟P.jpg

模拟单个用户真实对话场景

TTFT 7.4s

吞吐率29.7 tokens/s

也是符合性能预期

综合结论:根据企业具体需求对应选择单机或双机

单机H20 96GB * 8

跑4K上下文

并发数<40

吞吐率>16 tokens/s

双机H20 96GB * 16

跑满128K上下文

并发数<300

吞吐率>8 tokens/s

综上所述,单机H20即可实现DeepSeek-R1 671B满血版本地化部署,满足200人以下企业的普通对话使用需求。双机H20则可实现高并发需求,应对多人高频率使用,以及调用企业知识库、其他多模态大模型。若企业预算低于2台H20,又需要较高并发数,或者调用知识库,还可以选择单台H20 141GB * 8来部署实现。

发表回复