网站地图官方微信:
网站首页 俵口乡 婺城区 双浮镇 张青乡 柳山镇 大水乡

当前位置: 首页 >

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

  • | 程序员从幼稚走向成熟的标志是什么? |

    当年流行一个概念: CMM能力成熟度模型。 这个模型本来是用...

    查看详情>>
  • | 梁朝伟和刘青云等人为什么都没要孩子? |

  • | 能够自己一个人创业的全栈web码农fullstack developer要会哪些技术? |

  • | cloudflare的1.1.1.1和warp有什么区别? |

  • | 你怎么看待剪映收费过高问题? |

  • | 请问有没有什么工具能够生成局域网的网络拓扑结构图? |

  • | 不用CDN就没事,用阿里云CDN就被攻击刷流量,阿里云表示证明不了就要用户买单,如何看到这种行为? |

  • | 为什么男生都不喜欢173身高的女生啊? |

  • | 单从气候角度上来讲,你会认为昆明是国内最宜居的城市吗? |

  • | 央企的信创,是否有必要把 spring 替换成国产的 solon ? |

  • | 如果苹果真的下架了微信的话,会发生什么? |

  • 之前提到首屏优化,想到的就是Vue项目首页打开很慢需要优化。...

    2025-06-20
  • 你们亲爱的“马亲王”写的东西不一直那德行吗? 十二时辰里,一...

    2025-06-20
  • 英制单位不是毒瘤。 美国才是毒瘤。 从前,大家都是各自用各...

    2025-06-20
  • 我正在搓自己的DNS服务器,顺手回答一下 从头搓的话, 就是...

    2025-06-20

关注我们

添加微信好友,关注最新动态