大模型按输入类型分类主要分为以下三类:
-
语言大模型(NLP)
专注于自然语言处理,通过大规模语料库训练,实现文本生成、机器翻译、问答系统等任务。典型代表包括GPT系列、BERT等。
-
视觉大模型(CV)
处理图像数据,涵盖图像分类、目标检测、人脸识别等任务。例如VIT系列模型在计算机视觉领域表现突出。
-
多模态大模型
能融合文本、图像、音频等多种数据类型,提供更全面的场景理解。例如DALL-E根据文本生成图像,DeepSeek的多模态版本整合多源信息。
补充说明 :
-
通用大模型(如GPT系列)可跨领域应用,而垂直大模型(如医疗领域专用模型)则针对特定场景优化。
-
多模态模型是当前AI技术发展的前沿方向,能够提升系统对复杂现实场景的应对能力。