DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的,该公司由知名量化资管巨头幻方量化创立,创始人是梁文锋。其亮点包括性能强大、成本低以及采用多项创新技术等。
- 公司背景
DeepSeek全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日。该公司由幻方量化创立,幻方量化是国内头部量化私募管理人,旗下有浙江九章资产和宁波幻方量化两家百亿量化私募。幻方量化创始人梁文锋也即DeepSeek的创始人,他本科、研究生就读于浙江大学,拥有信息与电子工程学系本科和硕士学位。 - 技术发展历程
2024年1月发布首版大模型DeepSeek - LLM,使用传统transformer架构,训练体现成本节约和效率提升思想。2024年5月发布DeepSeek - V2,采用混合专家(MoE)架构和多头潜在注意力(MLA)技术,训练成本降低42.5%,最大生成吞吐量提高到5.76倍。2024年11月DeepSeek - V3上线并开源,对MoE架构进一步优化,采用无辅助损失的负载均衡策略和多token预测(MTP)技术,推理成本降低,性能大幅提升。2025年1月DeepSeek - R1正式发布,推理能力极大加强,与openai - o1模型不相上下且推理过程完全透明,采用纯强化学习训练,具备复杂逻辑推理能力,评估结果在多个基准测试中与openai - o1相当甚至更优。 - 创新技术
DeepSeek采用了混合专家(MoE)架构,通过细粒度专家划分和共享专家隔离,提高模型灵活性和表达能力,允许通过稀疏计算进行有效推理,相比传统transformer架构训练成本大幅降低。此外还有多头潜在注意力(MLA)技术,通过将kv缓存压缩为潜在向量来提高推理效率,从而提高吞吐量,且结合了旋转位置嵌入(ROPE),有效处理长序列中的位置依赖问题。 - 商业模式
DeepSeek - V3和R1模型采用mit协议,免费开源,提供API接入服务,采用按token计费的模式,可更好用于垂类场景,降低下游生态的使用成本。 - 市场影响
DeepSeek - V3性能大幅提升,在开源模型中位列榜首,与世界上最先进的闭源模型不分伯仲。DeepSeek - R1性能对标openai的o1正式版,且在某些测试中表现更优。其低成本的特性让其被称为“AI届拼多多”,开源策略也促进了AI生态的发展。ai.com顶级域名重定向到DeepSeek官网,也表明其受关注程度极高。