DeepSeek目前主要采用国产AI芯片与国际主流芯片的混合方案,核心亮点包括:中星微“星光智能五号”实现单芯片运行大模型、华为昇腾910B3主导推理服务、昆仑芯P800支持低成本单机部署,以及英伟达H100/H800用于大规模训练。这种多元适配策略既保障性能,又推动国产芯片生态发展。
-
国产芯片突破:中星微最新发布的“星光智能五号”采用自研GP-XPU架构,首次在单芯片上运行DeepSeek 7B/16B等模型,集成RISC-V CPU、NPU等多模块,算力效率提升40%,支持边缘端低功耗部署。华为昇腾910B3则主导推理服务,适配DeepSeek全系列模型,显著降低云端依赖。
-
国际芯片协同:训练环节依赖英伟达H100/H800集群,例如2000张H800用于模型预训练;推理端则逐步向国产芯片迁移,如昆仑芯P800单机8卡即可支持671B“满血版”模型,token处理速度达2437/秒,成本仅为国际方案的1/3。
-
生态兼容性:DeepSeek通过模型蒸馏(如R1-Distill系列)和架构优化(MLA、MoE),适配沐曦、海光、天数智芯等国产GPU,在相同并发下性能反超国际芯片110%-130%,形成“软硬协同”的技术壁垒。
未来,随着国产芯片制程与调度技术的迭代,DeepSeek有望进一步降低对国际硬件的依赖,为行业提供更高性价比的AI算力方案。开发者可关注国产芯片的适配进展,以优化本地化部署成本。