DeepSeek的训练数据主要来源于互联网公开数据、专业领域文本、合成数据及合作/自建语料库,通过多源融合与严格清洗确保多样性与质量。
-
互联网公开数据
包括新闻、百科、社交媒体(如Common Crawl、Wikipedia)、学术平台(ArXiv、GitHub)等,覆盖多语言与多领域内容,构成基础语料库。 -
专业领域数据
法律、医疗、金融等高质量文本经过合规处理,增强模型在垂直场景的推理能力,例如通过学术论文或行业文档优化专业术语理解。 -
合成与增强数据
利用规则生成或模型辅助(如GPT)创造多样化对话、指令数据,弥补稀缺场景覆盖,同时结合人工标注提升准确性。 -
合作/自建数据
通过爬虫、API或合作伙伴获取定制化语料,例如用户匿名化问答记录,进一步细化模型对实际需求的响应能力。
提示:数据质量依赖清洗去重、有害过滤及监督微调(SFT)等技术,具体细节可参考官方技术文档。