北京市西城区文兴东街2号
深圳云开·全站apply体育官方平台,kaiyun登录入口登录APP下载,kaiyun体育平台安全技术股份有限公司
成都市云开·全站apply体育官方平台,kaiyun登录入口登录APP下载,kaiyun体育平台安全实业有限公司
大模型竞技场的可信度再受挑战
近期,一篇名为《排行榜幻觉》的论文引发了学术圈的关注。该论文指出,大模型竞技场存在诸多系统问题,如数据访问不平等、模型测试的私密性等,这些问题对大模型竞技场的可信度构成了新的挑战。
大模型竞技场作为目前大型语言模型领域的热门竞技平台,其可信度一直备受关注云开全站·appkaiyun官网。然而,近期的一系列事件使得该平台的可信度再次受到质疑。首先,论文中提到,少数大模型厂商被允许私下测试多个模型变体,并只公开最佳表现的版本。这种“最佳 N 选 1”策略导致排名膨胀,使得排行榜的快速变化不再反映真实的技术进步。
其次,论文还指出,数据访问不平等的问题也存在于大模型竞技场中。专有模型获得的用户反馈数据显著多于开源模型,这可能导致开源模型在竞争中处于劣势。此外,论文还发现,许多模型被静默弃用(减少采样率至接近 0%),这在 243 个公开模型中,有 205 个被静默弃用,远超过官方列出的 47 个。这种做法特别影响开源和开放权重模型,会导致排名不可靠。
面对这些质疑,大模型竞技场官方 Lmrena.ai 给出回应。他们表示确实帮助厂商进行测试,最后发布最受欢迎的版本;但这不代表竞技场有偏见,排行榜反映数百万人类的个人真实偏好。然而,对于这些回应,一些研究人员并不认同。他们认为排行榜的快速变化不太可能反映真实的技术进步,因为开发和完善一个全新的基础模型通常需要数月时间。
尽管如此,大模型竞技场作为当前 AI 领域的重要平台,其影响力不容忽视云开全站·appkaiyun官网。它为开发者提供了一个展示和比较不同模型的平台,有助于推动大型语言模型的发展。因此,我们不能因为个别问题就完全否定大模型竞技场的作用。
事实上,大模型竞技场也并非一无是处。它为各大厂商提供了展示和比较自家模型的机会,有助于推动模型的优化和进步。同时,它也为公众提供了一个直观了解不同模型差异的平台。尽管存在一些问题,但大模型竞技场依然是一个有价值的平台。
另一方面,这篇论文的提出也提醒我们不能只参考一个榜单。在 AI 社区中,我们需要更多的参考基准,以更全面地评估大型语言模型的性能。这可能意味着我们需要更多的竞技场、更多的评估指标、更多的公开比较,以建立一个更全面的评估体系。
总的来说,大模型竞技场是一个充满活力和机遇的平台。尽管存在一些问题,但其潜力依然值得期待。我们期待看到更多的大型语言模型在这个平台上竞争和进步,同时也期待看到 AI 社区对评估体系的不断完善。