DeepSeek的研发历程可以分为以下几个关键阶段:成立初期(2023年7月)、技术突破(2023年11月至2025年初)和全球影响力(2025年初至今)。以下是具体发展历程和技术亮点的分点概述:
1. 成立初期(2023年7月)
DeepSeek成立于2023年7月,其研发团队以年轻化、高学历为特点,核心成员多来自清华大学、北京大学等顶尖高校,团队规模约140人。
2. 技术突破(2023年11月至2025年初)
- 2023年11月2日:发布首个开源模型DeepSeek Coder,支持代码生成与补全,标志着技术起点。
- 2024年1月5日:推出DeepSeek LLM,包含670亿参数,成为当时国内领先的通用大语言模型。
- 2024年2月:开源DeepSeek Math模型,专注于数学问题求解,进一步提升模型实用性。
- 2024年3月:推出DeepSeek-VL系列模型,支持视觉与语言多模态任务。
- 2024年12月26日:发布DeepSeek-V3系列模型,采用多令牌预测(MTP)和强化学习技术,推理能力显著提升。
- 2025年1月20日:开源推理模型DeepSeek-R1,在AIME 2024等基准测试中达到OpenAI-o1-1217的水平,技术实力跻身全球前列。
3. 全球影响力(2025年初至今)
- 2025年1月27日:DeepSeek登顶全球下载榜,日活跃用户突破2000万,彰显其市场吸引力。
- 2025年2月:连续开源多个创新模型,包括Janus-Pro、FlashMLA、DeepEP等,进一步巩固技术优势。
- 技术亮点:DeepSeek在模型架构上采用MoE(专家混合)和多头隐式注意力(MLA)等技术,显著降低训练成本并提升推理效率。
总结
DeepSeek凭借其快速的技术迭代和开源策略,不仅在国内AI领域占据领先地位,还通过技术创新在全球范围内产生了广泛影响。未来,DeepSeek有望继续推动人工智能技术的发展与应用,为全球用户提供更高效、更智能的解决方案。