大语言模型(LLM)通过数据驱动的语言生成机制,直接挑战了语言学中先天语言能力、普遍语法等核心理论,并引发了对语言本质理解的重新思考。其表现出的“涌现能力”和统计学习模式,与乔姆斯基学派主张的生物遗传语言机能形成鲜明对立,同时模糊了语言理解与模仿的边界,推动语言学向跨学科融合方向发展。
-
语言习得机制:先天论与数据驱动的对立
传统语言学认为人类语言能力依赖先天的“语言机能”,儿童通过有限输入即可掌握复杂语法(如“贫乏输入现象”)。而大语言模型仅通过海量数据训练即可生成流畅语言,证明语言能力可能无需预设规则,颠覆了先天论假设。 -
语言生成原理:普遍语法 vs 向量表示
生成语言学提出“普遍语法”是语言共性的基础,递归性是其核心特征。但大语言模型通过神经网络中的高维向量运算生成语言,完全绕过语法规则,仅依赖统计模式匹配。这种差异质疑了语法规则的普适性。 -
语言理解的本质:模仿还是认知?
大语言模型常出现“幻觉”(如虚构事实),被批评为无意义的符号拼凑。但支持者认为其向量交互隐含逻辑推理,类似人类非故意虚构行为。这种争议迫使语言学重新定义“理解”的边界。 -
研究范式的颠覆:从规则驱动到数据驱动
传统语言学依赖人工标注和有限样本,而大语言模型通过无监督学习从全量数据中提取模式,促使语言学转向计算实证方法,并与认知科学、神经科学交叉融合。
未来语言学需在规则与数据、人类与机器认知的张力中寻找平衡点。大语言模型既是挑战者,也是新工具,其发展将持续推动语言本质研究的范式革新。