根据2025年最新权威评测结果,大模型排名呈现多维度竞争格局,以下是综合信息:
一、综合能力排名
-
Grok-3 :在2025年2月的全网综合评测中以绝对优势夺冠,综合能力领先其他模型。
-
Gemini家族 :紧随其后,其中Gemini-2.0-Flash-Thinking模型在中文场景中表现突出。
-
国产大模型崛起 :智谱GLM4-plus、阿里Qwen千问系列、华为盘古大模型等在多场景中展现竞争力,但尚未超越国际顶尖模型。
二、代码场景表现
- Grok-3 、 Gemini2.0-pro 、 Claude3.7-Sonnet 位列前三,其中Gemini Flash 2.0和Claude 3.7 Sonnet的日调用Token量遥遥领先。
三、中文场景优势
-
Gemini-2.0-Flash-Thinking :在中文综合能力评测中登顶,展现对中文语境的深度理解。
-
阿里Qwen千问系列 、 智谱GLM4-plus :在特定中文任务中表现优异,但整体排名稍逊。
四、商汤日日新突破
- 在大语言与多模态双榜单中均登顶,通用基础能力、多模态图像理解能力位列国产第一,数理科学能力以88分领跑。
五、豆包大模型亮眼表现
-
主观评测 :豆包Pro以75.96分(通用模型)和79.38分(视觉语言模型)领跑国产,超过GPT-4o等国际模型。
-
客观评测 :豆包Pro以75.96分排名第二,但GPT-4以76.11分居首。
六、其他值得关注
-
Qwen2-72b :在AI高考全卷评测中以303分(满分420分)排名第一,展现强效应用能力。
-
天罡大模型 :中国电信研究院榜单中,豆包Pro、通义千问Qwen-Max等位列前三。
总结 :当前大模型竞争呈现“多模型并进”态势,国际模型如Grok-3、Gemini家族仍具优势,但国产模型在代码执行、中文理解及特定场景应用中表现亮眼,未来潜力值得期待。