DeepSeek(深度求索)由知名量化投资机构幻方量化于2023年7月在杭州创立,核心技术亮点包括以极低训练成本(V3仅557.6万美元)实现国际顶尖模型性能、采用创新MoE架构与FP8混合精度训练,以及通过开源策略成为“AI界的拼多多”。
DeepSeek由幻方量化创始人梁文锋创立,依托幻方在金融领域的技术积累,其AI研发团队迅速推出多款颠覆性模型。2024年1月,DeepSeek发布DeepSeek LLM,开启大模型国产化进程;同年5月,DeepSeek-V2开源模型以1%的成本对标GPT-4Turbo,引发行业关注。2024年12月,DeepSeek-V3上线,以6710亿参数量通过2000个GPU芯片实现超GPT-4o性能,成为全球焦点。2025年1月,专为复杂推理设计的DeepSeek-R1发布,成本仅为OpenAI o1的3%,进一步巩固其“高性价比AI”的地位。
DeepSeek的核心技术突破体现在两大方向:其一,通过FP8混合精度训练和MoE架构,在保持精度的同时显著降低计算资源需求,例如V3的训练成本不足同类产品的十分之一;其二,开源策略打破技术垄断,其模型代码公开推动全球开发者共同参与优化,被外界视为对抗美国AI技术封锁的“中国方案”。
总结而言,DeepSeek凭借技术创新与成本优势,已从中国本土企业跃升为全球AI竞争者,其发展路径标志着开源与高性价比或将成为下一代人工智能的主流趋势。