DeepSeek 最好的模型是 DeepSeek-V3,它在多个基准测试中表现卓越,拥有 6710 亿参数,速度快且性价比高。
DeepSeek-V3 凭借其庞大的 6710 亿参数实现了更细致的理解和文本生成。它采用 Mixture-of-Experts(MoE)架构提高效率,如同拥有一组专家,每项任务只咨询合适的专家,这使得模型更快、更高效。在 14.8 万亿个高质量 token 上预训练,确保了数据的多样化。其训练流程包含监督微调和强化学习阶段,仅需 2.788M H800 GPU 小时,经济实惠且训练过程稳定。在性能和指标方面,DeepSeek-V3 表现出色。MMLU-Pro 得分 75.9%,略落后于 GPT-4 ,但优于其他模型;GPQA-Diamond 得分 59.1%,显著领先于 GPT-4 ,稍落后于 Claude ;MATH 500 得分 90.2%,性能优于 GPT-4 和其他模型;AIME 2024 得分 39.2%,领先超过 4%;Codeforces 得分 51.6%,明显超过 GPT-4 和其他模型;SWE-bench 验证得分 42%,仅次于 Claude Sonnet ,领先于大多数其他模型。与主要竞争对手相比,DeepSeek-V3 在资源使用上相对较少,却依然能够提供令人瞩目的性能,与 Claude 3.5 和 GPT-4 等闭源模型相当。并且在性价比方面优势明显,每百万个 token 的 API 成本有效。与昂贵的闭源模型不同,DeepSeek-V3 在开源的同时提供有竞争力的性能,平衡了性能和易用性。使用体验上,DeepSeek-V3 的生成吐字速度从 20 tps 大幅提高至 60 tps,相比 V2.5 模型实现了 3 倍的提升,能带来更加流畅的使用感受。如果你只是想聊天,该模型免费托管在 deepseek 的官方聊天中 ,也可以通过 HuggingFace 访问其模型权重。