DeepSeek模型主要分为以下四类,涵盖不同应用场景和技术特点:
-
基础模型(V3)
适用于生成百科知识、信息介绍等基础任务,参数规模较小,推理速度快,适合轻量级应用。
-
深度思考模型(R1系列)
-
深度思考-R1 :对标OpenAI的o1/o3系列,强化学习训练,推理能力接近o1模型,支持多轮迭代学习,参数压缩显著。
-
深度思考-Prover-V2-671B :数学定理证明专用模型,参数达6710亿,采用混合专家架构和Lean 4框架,支持自动化证明。
-
-
通用语言模型(V2/V3系列)
-
DeepSeek-V2 :对标GPT-4o系列,适用于长文本处理、代码生成等任务。
-
DeepSeek-V3 :参数671B,综合性能接近国际顶尖模型,在知识问答、数学竞赛中表现突出。
-
-
多模态模型(Janus-Pro系列)
支持文本、图像、视频等多模态数据融合,应用于图像生成、视频分析等跨领域任务。
其他说明 :
-
模型部署支持云端(如百度智能云、阿里云等)和本地化部署,部分模型(如Qwen2.5、Llama-3.1)提供免费API。
-
混合专家(MoE)架构是DeepSeek的核心技术之一,提升模型处理复杂任务的能力。