DeepSeek目前有DeepSeek-V3、DeepSeek-R1、DeepSeek Janus Pro三个核心版本以及多个基于DeepSeek-R1蒸馏的小模型,不同版本在参数规模、核心能力、适用场景等方面存在差异。
DeepSeek-V3于2024年12月26日发行,模型大小为671b,具备通用自然语言处理能力,支持长文本理解、多语言交互等功能,在合同条款解析、政策法规匹配、审计报告生成等场景表现出色。它在多个基准测试中表现优异,尤其在代码和数学任务上超越了其他开源模型,与领先的闭源模型(如gpt - 4和claude - 3.5 - sonnet)不相上下,且训练成本相对较低,性价比高,可直接部署需要1.3 - 2TB(fp16)的显存支持。不过,为了方便一般用户本地使用,团队还蒸馏了不同尺寸的小模型供选择。
DeepSeek - R1在2025年1月20日推出,同样为671b的模型,专注于复杂逻辑推理,强化了数学与财务数据分析、异常检测、代码生成能力,适用于风险建模等场景。和DeepSeek-V3一样,其原始模型直接部署需要较高显存,团队基于它蒸馏出6款小模型,包含1.5b - 70b在内,这些蒸馏版牺牲部分性能以降低参数量和计算成本,适合资源有限的场景,能在个人设备等轻量化部署中发挥作用。
DeepSeek Janus Pro于2025年1月28日发布,模型大小为7b,具备多模态(文本 + 图像 + 表格)能力,可在票据识别、图表数据关联理解与生成、可视化报告等场景应用。
除了上述核心版本,DeepSeek针对不同的应用场景和硬件条件,还推出了多种优化版本。比如,MoE架构的混合专家模型,像DeepSeek V2(236B参数)和V3(671B参数),采用稀疏架构降低推理成本,性能对标顶级模型;还有通用语言模型(LLM系列)和代码生成模型(Coder系列),分别在文本生成、数学推理以及编程任务中具有出色表现。在部署方面,不同版本对显卡等硬件配置有不同要求,量化技术可以在一定程度上降低显存需求,但会对精度有一定影响。用户可根据自身需求和硬件条件选择合适的版本。