首个AI高考全卷评测结果发布：最高分303，数学全不及格

格隆汇6月19日｜据一财，在前不久高考结束后，上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。6月19日， OpenCompass发布了首个大模型高考全卷评测结果。
语数外三科加起来的满分为420分，此次高考测试结果显示，阿里通义千问2-72B排名第一，为303分，OpenAI的GPT-4o排名第二，得分296分，上海人工智能实验室的书生·浦语2.0排名第三，三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。
从结果来看，大模型的语文、英语考试水平普遍不错，但数学都不及格，最高分也只有75分，来自书生·浦语2.0，其次是GPT-4o，得分73分。语文最高分是通义千问，英语最高分是GPT-4o。在数学方面大模型还有很大的提升空间。数学关乎复杂推理相关能力，这是大模型普遍面临的难题，也是大模型在金融、工业等要求可靠的场景落地需要的关键能力。
此次测试的模型分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室、法国Mistral的开源模型，以及来自OpenAI的闭源模型GPT-4o。实验室表示，因无法确定闭源模型的更新时间，为公平起见，此次评测没有纳入商用闭源模型，仅引入GPT-4o作为评测参考。这次选择参与高考的“考生”均在高考前（2024年4月-6月）开源，避免了“刷题风险”。

文章转载自：互联网，非本站原创

首个AI高考全卷评测结果发布：最高分303，数学全不及格

猜你喜欢

最新文章

今日推荐

站长推荐

热门文章