DeepSeek是基于自研的DeepSeek-MoE架构的大模型,其核心亮点包括稀疏化专家混合(MoE)技术、高效推理能力和千亿级参数规模。该模型通过动态激活部分参数显著降低计算成本,同时保持与稠密模型相当的精度,适用于搜索、问答等复杂场景。
-
MoE架构设计
DeepSeek采用稀疏化专家混合网络,将模型划分为多个“专家”子网络,每个输入仅激活部分专家。例如,16B参数的模型实际推理时仅调用约2B参数,资源消耗减少80%以上,而性能接近传统稠密结构的175B参数模型。 -
千亿级参数规模
模型总参数量超千亿,通过分层式结构(如16个专家层+共享注意力层)平衡容量与效率。训练时使用超4万亿token的高质量多语言数据,覆盖编程、数学、学术等领域。 -
应用场景优化
针对搜索场景强化了长文本理解(支持128K上下文)和逻辑推理能力,在权威评测(如MMLU、GSM8K)中数学与代码生成得分超过GPT-3.5级别模型。
提示:MoE技术正成为大模型降本增效的主流方案,未来可能进一步拓展至多模态任务。