如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-23 15:50:19
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-28 15:40:16毕设答辩,老师说node不可能写后台怎么办?
- 2025-06-28 15:25:15特斯拉宣布将于 6 月 22 日开始 Robotaxi 公开试运营,这将对自动驾驶行业带来哪些影响?
- 2025-06-28 15:45:15你见过最烂代码是什么?
- 2025-06-28 16:00:16为什么中国JK无法拍出日本JK的感觉?
- 2025-06-28 15:25:15忘语能靠《凡人修仙传》吃一辈子吗?
- 2025-06-28 15:20:15已经有 Web 了,为什么国内还有各种小程序,快应用这种畸形的产物?
- 2025-06-28 15:10:16程序员平时都是CRUD开发工作,真的需要深入理解原理性的知识点吗?
- 2025-06-28 15:05:16esbuild为什么不用Rust,而使用了Go?
- 2025-06-28 16:50:16switch2好用吗朋友们?
- 2025-06-28 15:10:16自己组一个E5服务器才几百块钱,为什么去阿里云租这么贵?
推荐产品
-
请问MAC系统的输入法,好用吗?有智能ABC吗?
声笔简拼极其简单、高效,没有什么学习门槛,可以用一句话概括它 -
现在个人博客不能备案了吗?
我之前给博客备案,然后接到电话说名字不可以叫“xx博客”,我 -
为啥小姐姐们都不想做主播了?
主播都卷飞了。 从今年开始,B站擦边的成分极为复杂,怀孕的 -
27寸显示器是否有必要到4K?
看用途和预算。 不差钱的电影发烧友和单机游戏玩家上顶配4K(
新闻动态
最新资讯