大模型是由海量数据训练的人工智能系统,具有参数量大、计算资源需求高、通用性强等特点,可分为语言、视觉、多模态及基础科学等类别,并已渗透至搜索引擎、自动驾驶等领域。
大模型的核心是通过自监督或半监督学习在海量数据上预训练,早期技术起源于20世纪末的统计语言模型,如IBM的对齐模型和2001年的n-gram模型。随着技术迭代,2017年Transformer架构的提出加速了发展,GPT系列于2018年起推动行业突破。目前,大模型通常指参数规模达百亿至万亿的模型,但数十亿参数的模型(如LLaMA-2 7B)也被归入此类。
从定义看,大模型分为大语言模型(如GPT)、视觉模型、多模态模型及科学专用模型,其中多模态模型可融合文本、图像和语音处理能力。其显著优势是低门槛解决多领域任务,例如搜索引擎智能化或复杂推理,但对算力要求极高,训练成本可达数千万元。值得注意的是,广义上的“大模型”可能包含参数量较少的优化版本,需结合实际应用场景区分。
大模型通过高效整合数据与计算资源,大幅提升了通用人工智能的适用性,成为推动科研与产业升级的关键工具,但其发展仍依赖经济与技术资源的协同支持。