大模型数据集种类主要分为以下五类,涵盖不同领域和应用场景:
-
多模态数据集
整合文本、图像、音频、视频等多种形式的数据,支持跨模态学习。例如,ChatLaw系列模型结合法律文本与案例数据,LaWGPT通过中文法律语料增强语义理解。
-
法律领域数据集
专为法律推理设计,如:
-
ChatLaw :基于93万判决案例,支持法条匹配和逻辑推理;
-
LexiLaw :通过中文法律语料预训练,提供法律咨询和案例解析功能。
-
-
数学推理数据集
以"Chain of Thought"推理方式为核心,如:
-
NuminaMath CoT :包含86万个数学问题,覆盖高中至国际竞赛题目,适合逻辑推理建模;
-
GSM8K :8k级应用题数据集,侧重小学至中学数学应用题。
-
-
通用语言与知识基准
-
MMLU :覆盖57个学科(如数学、历史、法律),评估零-shot和few-shot能力;
-
CMMLU :中文多模态基准,包含67个主题,适用于中文大模型评估。
-
-
自监督与无监督学习数据
包括未标注文本、图像等,用于预训练模型底层特征。例如,Pile数据集通过22个子集(如Wikipedia、ArXiv)提供多样化文本资源。
总结 :大模型数据集种类多样,需根据任务需求选择合适类型。法律、数学领域数据集侧重专业推理,而通用基准和多模态数据集则支持广泛场景应用。