Transformer模型最初由谷歌(Google)开发。该模型最初在2017年的论文《Attention Is All You Need》中提出,作为编码器-解码器架构,主要用于自然语言处理任务。后续,谷歌又推出了BERT(Bidirectional Encoder Representations),这是最早的大语言模型之一。
此外,其他公司和研究机构也基于Transformer架构进行了扩展和应用,例如:
-
阿里巴巴 :在推荐系统中使用行为序列Transformer模型(BST)预测用户点击行为;
-
Adept AI :推出多模态大模型Fuyu-Heavy,结合图像识别和数理推理能力;
-
Hugging Face :开发了集成BERT、GPT-2等模型的开发框架,提供预训练模型接口。
Transformer的流行也推动了其他领域的研究,如计算机视觉(如Fuyu-Heavy)和推荐系统。