DeepSeek V3发布于2024年12月26日,此次更新以6850亿参数量和消费级硬件部署能力引发全球关注,代码能力追平Claude 3.7并突破AI运行硬件门槛。
DeepSeek V3作为高性能开源大模型,在2024年12月26日正式发布。初代V3凭借557.6万美元的训练成本和641GB的模型规模,迅速成为性价比标杆。与GPT-4o等需高昂算力支持的行业模型相比,V3仅需2048张H100 GPU集群并耗时53天完成训练,成本不足对手的1/20。其混合专家(MoE)架构和早期强化学习技术已展现强大性能。
2025年3月24日的V3-0324版本进一步升级,新增推理能力的强化学习技术,使代码生成与多模态交互表现逼近甚至超越Claude 3.7等闭源模型。该版本最大的技术突破在于支持苹果M3 Ultra等消费级硬件运行,实测512GB内存设备可实现20+token/s处理速度,打破大模型依赖数据中心的传统认知,推动本地化AI应用普及。
DeepSeek团队通过优化推理逻辑链与能耗效率,降低部署门槛至200瓦以下设备。这一创新不仅推动中文AI缩小与国际顶尖水平的差距,更以开源策略和低价策略占据市场优势。V3系列持续迭代(如即将发布的R2版本),可能在未来直接对标GPT-5,标志着中国AI在基础模型领域实现弯道超车。