如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-26 12:30:19
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-22 06:50:14为什么国内连 Docker 镜像源都要封禁?
- 2025-06-22 07:05:16哪张照片让你觉得刘亦菲美得不可方物?
- 2025-06-22 06:15:14如何看待多地开展查摆年轻干部玩心重、混日子、说话随意、口大气粗等问题的行动?
- 2025-06-22 06:45:15如何看待三峡集团总部搬迁至武汉?
- 2025-06-22 06:30:14你最喜欢哪门编程语言?为什么?
- 2025-06-22 05:45:14汉语是牺牲了什么,才成为世界最紧凑、最高效的语言?
- 2025-06-22 06:30:14现在的年轻人喜欢穿连裤袜吗?
- 2025-06-22 05:50:14普通女生怎么做才能变得好看或有气质?
- 2025-06-22 06:45:15那些168cm才80来斤的女生,真的现实生活中好看吗?
- 2025-06-22 05:40:14凡人修仙传#为啥只有韩立学各家技能,其他人为啥不去学?
推荐产品
-
作为普通中国人,我们可以为以色列人民做点什么?
不感谢邀请。 2019年***疫情爆发时,西方国家污蔑抹黑 -
字节引入Rust是否代表J***a的缺点Go也没解决?
Tiktok后端开发,偏架构设计。 目前我了解到的,只有在 -
Golang 的 Web 框架该怎么选择?Web 开发又该怎样学?
推荐一个大家都没提到的 Connect 。 可以同时构建 r -
你们认为一个40多岁的女人老吗?
老不老要看你怎么看? 单看面貌,是真的老了。 无论你保养再好
新闻动态
最新资讯