大模型开源公开的内容通常包括以下几类:
-
模型权重 :这是大模型的核心参数,用于生成预测结果。
-
训练代码 :包括用于训练模型的所有代码,如数据预处理、模型定义、训练循环等。
-
数据集 :用于训练模型的数据集,可能包括文本、图像、音频等多种类型的数据。
-
训练日志 :记录训练过程中的重要信息,如损失函数值、准确率等。
-
推理代码 :用于在模型部署后进行预测的代码。
-
模型架构 :描述模型结构、层数、连接方式等信息的文档。
-
评估指标 :用于衡量模型性能的指标,如准确率、召回率等。
-
数据处理流程 :从原始数据到模型输入的整个处理过程。
-
实验消融结果 :通过改变模型某些部分来观察性能变化的研究结果。
目前,多个机构和研究团队已经开源了一些大模型,例如:
-
OLMo :由艾伦人工智能研究所等5个机构开源,提供了模型权重、完整训练代码、数据集和训练过程。
-
OpenCoder :提供了模型权重、推理代码、可重复的训练数据、完整的数据处理流程、严谨的实验消融结果以及详细的训练细节。
-
CodeLLM :提供了模型权重和推理代码,以及可重复的训练数据和详细的训练细节。
-
CodeShell :由北京大学软件工程国家工程研究中心知识计算实验室开源,提供了性能更强的代码基座大模型CodeShell-7B和代码助手CodeShell-Chat,以及相应的IDE插件。
-
FullStack Bench :由字节跳动豆包大模型团队开源,是一个专注于全栈编程和多语言编程的代码评估数据集。
这些开源项目为研究人员和开发者提供了宝贵的资源,有助于推动人工智能领域的发展和创新。建议关注这些项目的官方渠道,以获取最新的更新和代码。