DeepSeek训练所需的数据量规模庞大且高度专业化,其最新版本DeepSeek-V3的预训练数据量达到14.8万亿token,涵盖数学、代码、科学文献等多领域高质量语料。这一数据规模是早期版本的7倍以上,且通过混合专家架构(MoE)和算法优化显著提升了训练效率,单位token算力成本仅为37.6万美元/万亿token。
-
数据规模与版本演进
DeepSeek从基础版本的2万亿token逐步扩展:- DeepSeek-LLM/Coder使用2万亿token
- DeepSeek-V2提升至8.1万亿token
- DeepSeek-V3达到14.8万亿token,并额外使用150万条指令微调数据。
数据量的指数级增长直接支撑了模型在复杂推理(如数学解题)和长文本生成上的性能突破。
-
数据来源与质量控制
训练数据经过严格筛选和分类:- 通用领域(45%):开放域对话、创意写作等,经人工校验;
- 专业领域(45%):包括arXiv论文、GitHub代码、医学文献等结构化数据;
- 安全伦理(10%):针对性优化模型合规性。
预处理环节采用MinHash去重和质量分类器过滤,确保数据多样性和低噪声。
-
数据与算力的协同优化
DeepSeek通过技术手段降低数据需求对算力的压力:- MoE架构:仅激活370亿参数处理每个token,相比密集模型节省60%算力;
- 算法改进:FP8混合精度和动态负载均衡使训练速度提升20-30%;
- 硬件适配:2048块H800 GPU集群实现14.8万亿token训练仅耗资557万美元,成本效率达Grok-3的3.3%。
-
未来数据扩展方向
若要对标50万亿token级别的顶级模型,需进一步:- 整合多模态数据(如图像、视频描述文本);
- 增加实时数据流(如学术最新成果);
- 通过社区开源生态补充垂直领域语料。
总结:DeepSeek的数据策略以“质量优先、效率驱动”为核心,既通过超大规模语料覆盖通用能力,又借助领域数据专项优化关键性能。对于AI开发者,理解其数据构建逻辑可启发自身数据体系的规划。