大模型的长上下文能力正在迅速发展,以满足日益增长的复杂任务需求。以下是一些关于长上下文大模型的关键信息:
- 开源大模型 :
-
Llama 2 :上下文长度为4K。
-
Code-Llama 系列 :由于需要输入代码,上下文长度扩展到了16K。
- 闭源大模型 :
-
OpenAI 的 GPT-4 Turbo :提供了128K的上下文长度。
-
Anthropic 的 Claude 2.1 :提供了200K的上下文长度。
- 长上下文的需求 :
- 上下文长度取决于语言和所使用的tokenizer,每个token对应的编码文本有所不同。例如,中文模型每个token通常对应超过1.5个字,因此200k的token可以处理约30万字的上下文。
- 技术扩展方法 :
-
技术改造 :选择已经训练好的大模型,通过技术改造扩展其上下文长度,然后再进行微调训练。
-
四行代码扩展 :通过四行代码可以让大模型窗口长度暴增,最高可增加3倍,且“即插即用”,适用于任意大模型。
- 新方法和优化 :
-
Variable Vision Position Embedding (V2PE) :清华大学、香港大学和上海AI Lab提出的一种新的位置编码方法,用于多模态大模型,显著提升了在32K至1M长度超长上下文任务中的表现。
-
SelfExtended (SE) :得克萨斯农工大学等机构发布的全新大模型窗口扩展方法,通过自我扩展技术增加上下文长度。
- 应用前景 :
-
长上下文大模型在处理大型项目和复杂代码时表现出色,例如Codestral 25.01在小于1000亿参数的代码模型中测试,上下文长度可达25.6万Token。
-
多模态大模型的长上下文处理能力和多模态融合策略的有效结合,成为成功落地的关键。
综上所述,长上下文大模型在自然语言处理、代码生成和多模态应用等领域展现出巨大的潜力。随着技术的不断进步,未来这些模型将在更多场景中发挥重要作用。