在一项正在通过学术界发动波纹的开发中,OpenAI的最新AI模型“ Chatgpt O3”在臭名昭著的挑战的JEE Advanced 2025考试中取得了近乎完美的分数。联合入学考试(JEE)高级是印度最具竞争力的大学入学考试,是通往著名的印度技术学院(IIT)的门户。
IIT Kharagpur工程师Anushka Aashvi率先进行了开创性的实验,最初是作为随便的询问开始的。但是,结果并非普通。 Chatgpt O3在可能的360分中获得了惊人的327分,这一壮举将在实际考试中使其成为全印度排名4的壮举。
AASHVI精心重建了AI的现实测试条件。在她的博客“ Heltar”中,她详细介绍了该模型是如何提示“像吉斯有抱负的人”,并独立解决每个问题,而无需求助于网络搜索或外部python工具。为了消除任何记忆偏见,每个问题都在新的聊天会议中提出,并且在此过程中没有提供更正或提示。
https://www.youtube.com/watch?v=uf2vmy_loqi
尽管有这些严格的限制,但Chatgpt O3表现出了非常熟练的水平。在模拟考试的第二阶段,AI在化学和数学方面都取得了明显的成就,仅在物理和早期部分中删除了几个标记。
AI聊天机器人对这种高风险,以人为中心的考试的这种前所未有的表现强调了人工智能的快速发展能力,并促使有关其对教育,竞争评估和“智能”的定义的潜在影响的重要讨论。
同时,由苹果研究人员领导的另一项调查阐明了领先的AI系统(例如Chatgpt O3,Claude和Deepseek)的局限性。尽管产生了自信,清晰的反应,但这些模型通常在真正困难的任务的重量下步履蹒跚。
在新发表的研究论文中,苹果团队认为,即使是当今最先进的语言模型,也可能无法像广泛假设那样进行真实的推理。他们的研究表明,尽管这些模型可以令人信服地模拟智力,但在面临深厚的复杂挑战时,它们的功能往往会大大崩溃。