DeepSeek最新开源模型的参数量高达6710亿(671B),属于当前AI领域顶尖的超大规模语言模型。关键亮点包括:采用混合专家(MoE)架构、支持超长上下文(16.3万token)、FP8量化技术提升推理效率,并针对数学证明等复杂任务优化。
- 参数规模与架构:6710亿参数的DeepSeek-Prover-V2-671B基于MoE设计,61层Transformer结构,隐藏层维度达7168,单次推理仅激活部分专家模块,兼顾性能与资源效率。
- 技术突破:模型支持163840位置嵌入,可处理超长文本(如数学证明或科研论文),并引入FP8量化技术,显著降低显存占用,加速推理速度。
- 应用场景:专为数学、代码生成等高复杂度任务设计,在开源社区Hugging Face发布,提供safetensors格式,便于开发者部署。
- 训练与成本:训练数据量达14.8万亿token,虽参数规模庞大,但通过架构优化(如动态路由)控制训练成本,性价比优于同类闭源模型。
DeepSeek-671B的开源标志着超大模型技术民主化的重要进展,为学术研究和工业应用提供了高性能工具。开发者可结合量化技术与硬件适配,进一步降低部署门槛。