根据2024年上海人工智能实验室发布的AI高考全卷评测结果,AI在高考中的表现存在显著差异,具体如下:
-
总体成绩分布
-
最高分 :阿里通义千问2-72B以303分(语数外满分420分)位列榜首,GPT-4o和书生·浦语2.0分别以296分和295.5分紧随其后。
-
最低分 :书生·浦语2.0在数学中取得75分(满分150分),为AI在理科中的最高分。
-
-
科目表现差异
-
优势科目 :AI在语文和英语中表现突出,平均分数较高,表明其在这两科的评测中具有较高准确性。
-
薄弱科目 :数学是AI的“重灾区”,所有模型均未及格(满分150分),最高仅75分;物理和化学表现较差,普遍低于60分。
-
-
评测依据与背景
-
评测采用2024年全国新课标I卷,使用6个开源模型及GPT-4o进行“闭卷”测试,确保与高考难度一致。
-
结果显示,AI在文科综合类科目(如语文、英语、历史)中更具优势,而理科中的数理化则暴露出能力短板。
-
总结 :AI在高考中的总成绩受科目差异影响显著,语文、英语等文科科目表现较好,但数学等理科科目普遍不及格。这一结果反映了AI在处理记忆型、逻辑推理型题目时的能力局限。