我们生活在人工智能(AI)的快速上升的时代。可以写诗歌,产生令人惊叹的艺术品甚至举行对话的机器变得司空见惯。感觉就像我们在革命性的浪尖上。但是,我们如何真正知道这些AI工具变得多么聪明呢?我们如何衡量他们的进步?就像学生参加考试一样,AI开发人员依靠称为“基准”的考试来对其创作进行评分。这些基准已成为AI的事实上的报告卡,指导了数万亿美元的投资和塑造技术的未来。
但是,如果测试有缺陷怎么办?如果成绩单没有讲述整个故事怎么办?想象一下,使用三年级拼写测试评估大学教授的整体智力。当然,他们会吓到这一点,但这不会告诉您他们进行量子物理学复杂研究或演讲的能力。根据越来越多的专家合唱,我们可能面临AI的类似情况。我们依靠的基准测试是一些具有“ Hellaswag”等色彩鲜艳的首字母缩写词,越来越被视为统治者不足以衡量现代AI的迅速发展能力。
研究人员正在发出警报。他们认为,许多常见的基准“很容易出现,过时或在盘点模型的实际技能方面做得不好”。想像一下Kota的IIT-JEE特定密集教练:AI模型可以在特定基准上得分良好,而不必发展更广泛,更灵活的智能。一项名为“ Better Bench”的揭示研究评估了流行的AI测试,发现它们的质量尚待不足。斯坦福大学以人类为中心的AI研究所的Anka Reuel描绘了一幅鲜明的画面,将当前的情况描述为“在基准方面就像野外西部的情况”。
由于AI模型以闪电速度变得越来越聪明,因此对过时的测试的依赖变得尤为问题。 AI安全中心的研究人员爱丽丝·加蒂(Alice Gatti)指出,Advanced AIS现在是“定期’Acing’Acing’早期基准,例如MMLU(大量的多任务语言理解)”,这是一项以前具有挑战性的测试,涵盖了不同的主题。当班上最好的学生在每次测试中获得100%的收益时,测试停止可用于衡量进一步的增长。为了解决这个问题,Gatti和她的同事开发了一个强大的新基准,称为“人类的最后考试”(HLE)。他们从众多领域的领先专家那里收集了近3,000个复杂的多项选择和简短的问题 – 即使对于人类专家来说也很困难,尤其是“谷歌式的”,以防止简单的查找。就目前而言,HLE透露,最好的AIS仍在真正的专家级别的推理中挣扎。
也许最大的挑战在于我们正在测量的内容。我们是在评估真正的理解,推理和创造力,还是仅仅是反流信息并找到模式的能力?真正的智力不仅仅是有正确的答案;这也是关于好奇心,批判性思维,制定新思想和理解背景。我们目前的基准通常无法评估这些更深的认知能力。我们需要测试,不仅要探究AI所知道的,而且还需要探测它的想法。
因为今天使用的基准不仅仅是学术工具。它们直接影响了从教育和医疗保健到刑事司法和金融服务的所有事物中AI的采用方式。如果基于弱测试的AI系统被标记为“安全”或“人级”,则可以以损害人们或增强偏见的方式部署它。在印度,AI正在融入治理,福利交付和数字公共基础设施中,风险更加严重。没有强大的上下文敏感的基准,我们冒着从全球科技巨头进口有缺陷的模型并将其部署在他们从未设计的环境中的风险。需要的不仅是更强大的评估标准,而且还参与创建和管理它们。
随着AI成为公共决策的核心,我们的评估框架必须发展。我们需要不仅更难而且更智能的基准测试,这反映了人类语言,价值观和背景的复杂性。这意味着参与伦理学家,领域专家,是的,日常用户(不仅是工程师)在这些测试的设计中。俗话说:“得到的测量得到了管理。”如果我们用错误的码数测量AI,我们将严格管理它。在这个世界上,AI正在做出改变生活的决定(从谁获得贷款到诊断疾病的方式)的世界中,我们负担不起。
因此,下次您听到AI系统通过颜色进行了一些测试时,提出了一个不同的问题:这是正确的测试吗?
作者是国家消费者纠纷的成员。
表达的观点是个人的,不反映Financialexpress.com的官方立场或政策。禁止未经许可复制此内容。