DeepSeek的历史渊源可归纳为以下关键节点:
-
创立背景与团队
DeepSeek由幻方量化投资于2023年7月正式成立,总部位于杭州。其前身为2023年4月宣布战略转型的独立研究公司,由创始人梁文峰主导。梁文峰拥有浙江大学本硕学历,曾在2007-2008年金融危机期间涉足量化交易,并带领团队在金融领域取得显著成就。
-
技术积累与早期突破
-
2023年11月发布首个开源模型DeepSeek Coder,支持代码生成与编程辅助,与GitHub Copilot等工具竞争。
-
2023年12月推出DeepSeek LLM(670亿参数),包含7B和67B版本,奠定基础。
-
-
硬件与资源支持
幻方量化提供超1万张英伟达A100芯片算力储备,并投入建设“萤火一号”“萤火二号”超级计算机,为研发提供硬件保障。
-
技术迭代与开源策略
-
2024年发布DeepSeek V2(2360亿参数),推理成本降至每百万token 1元。
-
2024年12月推出DeepSeek V3(6710亿参数),采用混合精度训练架构,训练成本大幅降低。
-
2025年1月发布DeepSeek R1(与OpenAI O1持平),完全开源模型权重。
-
-
核心理念与目标
DeepSeek专注于通用人工智能(AGI)研究,强调开源可及性与成本效益,旨在突破传统AI技术局限,探索智能算法与模型创新。