目前写代码能力最强的大模型是阿里云的Athene - V2 - Chat,它在BigCodeBench数据集的测试中表现卓越;国产大模型中,阿里云的Qwen2.5 - Coder以及由Qwen2.5 - 72B - Instruct改进而来的Athene - V2 - Chat,还有字节跳动的豆包MarsCode都展示出了出色的代码生成能力。
阿里云的Athene - V2 - Chat在BigCodeBench数据集的评估中排名第一,该数据集专为评估类似HumanEval的函数级代码生成任务而设计,但具有更复杂的指令和多样化的函数调用。在BigCodeBench的HARD模式下AVERAGE结果中,Athene - V2 - Chat排名领先,表明其在代码生成领域具有很强的实力。它使用的底座是阿里的Qwen 2.5 - 72B - Instruct,经过了进一步的训练,采用强化学习人类反馈(RLHF)技术,在数学和编程等任务中表现出色。
Qwen2.5 - Coder版是阿里达摩院开发的代码语言模型,代码生成能力表现优秀,支持多种编程语言,具备智能代码补全、行级/函数级自动续写、自然语言编码、注释生成、单元测试生成等功能,还有智能调试工具,能自动分析代码中的错误,并给出修复建议,支持自动生成测试用例,保证代码质量,并且内置团队协作功能,可自动生成注释和文档,简化团队开发的沟通成本。
字节跳动的豆包MarsCode是专为编程设计的AI助手,自发布以来每月为用户贡献百万量级代码,显示了其在代码生成方面的实力,功能丰富,涵盖智能代码补全、问答、自动添加注释和测试、智能查错和解释等,支持多种编程语言和IDE。
国内其他大模型如DeepSeek - Coder性能强劲,在代码生成能力方面表现出色,位于大模型代码生成能力榜单TOP10,在国产模型中处于领先水平;Fitten Code由清华博士团队开发,准确率比国际同类产品高20%,平均响应延迟仅约300ms,功能丰富,涵盖多种功能,支持广泛的语言及编辑器;通义灵码功能全面强大,支持多种主流编程语言,具有多种代码生成和辅助功能,注重用户体验,针对IDE的原生视觉做了很多交互设计,贴合开发者使用习惯,安全可控,提供云端大模型和纯本地运行的小模型,可一键切换;文心快码基于百度文心大模型,结合海量编程数据,支持多种代码功能,自然语言理解出色,能将自然语言需求转化为相应代码,适合快速原型开发,代码补全精准,能根据代码上下文提供精准建议,代码分析优化能力强,能够对现有代码进行质量分析,检测潜在的性能问题和bug,并给出优化建议;腾讯AI代码依托大数据分析,提供准确的代码补全和建议,代码生成能力强,调试和错误检测精准,助力学习与规范;iflycode开发助手语音编程特色突出,支持通过语音输入编程命令,提高了开发的灵活性和便捷性,功能较为全面,语音识别精准;Kimi在一些场景下也能辅助代码编写,有一定的功能特点。
大模型写代码的能力在不断发展,不同的大模型各有其优势,开发者可根据自身需求,如编程语言偏好、开发场景、对功能的要求等,选择最适合自己的写代码大模型。