大模型的分类主要依据应用领域、模型架构、输入数据类型及训练方式,具体可分为以下五类:
一、按应用领域划分
-
通用型大模型
适用于多种任务,如GPT系列、PaLM,具备跨领域的语言理解与生成能力。
-
垂直型大模型
针对特定领域优化,例如医疗、金融、法律等,如百川智能的医疗大模型。
-
多模态大模型
融合文本、图像、语音等多种输入形式,如DeepSeek的多模态版本。
二、按模型架构划分
-
密集模型(Dense Models)
全连接参数结构,如GPT-3、BERT。
-
稀疏模型(Sparse Models)
通过动态激活部分参数提升效率,如混合专家模型(MoE)、DeepSeek、Kimi。
-
Transformer模型
基于自注意力机制,适用于NLP任务(如BERT、GPT),也拓展至CV(如ViT)。
三、按输入数据类型划分
-
自然语言处理(NLP)
处理文本,如GPT系列、BERT,用于文本生成、分类等。
-
计算机视觉(CV)
处理图像和视频,如Inception、ResNet,用于目标检测、语义分割等。
-
语音识别(ASR)
专注语音信号处理,如WavNet,实现语音转文本与合成。
四、按训练方式划分
-
监督学习模型
通过标注数据训练,如BERT、GPT。
-
自监督学习模型
无标注数据训练,如SimCLR、MoCo。
-
强化学习模型
通过交互优化策略,如AlphaGo。
五、按推理能力划分
-
理解型模型
侧重语义分析,如BERT。
-
推理型模型
具备复杂逻辑推理能力,如DeepSeek通过长思维链优化。
注 :不同分类标准可能存在交叉,例如通用型模型可包含Transformer架构,垂直型模型可能使用稀疏模型等。