23个AI模型中的哪个更好回答科学问题？

23个AI模型中的哪个更好回答科学问题？?

报纸报道说，最近推出的参考测试平台表明，由Chatgpt R＆D团队开发的人工智能O3模型（AI）已成为回答多个领域科学问题的最佳AI工具。根据大自然的说法，美国艾伦人工智能研究所（AI2）开发的Scialrena平台对基于23种领先语言模型的科学问题进行了分类。 102个研究人员投票决定了回应的质量。经过13,000票之后，OpenAI在美国开发的O3模型首次被分类，以回答自然科学，医学健康，工程，人文科学和社会科学领域的问题。中国一家详细搜索公司的DeepSeek-R1模型占据了自然科学和第四工程问题的第二名。Geamini-2.5-Pro模型Google占据了自然科学和TH的第三名。E工程和医疗保健第五。 AI2研究员Arman Cohan说，用户对O3模型的偏好可能归因于以下事实：当文献引用并且可以在技术上是故意的。但是，他指出，尚不清楚为什么不同的模型的工作方式不同。诸如不同培训数据和模型优化目标之类的因素可以在某种程度上解释这种差异。 SCIARENA是为评估特定任务中AI模型的性能而开发的最后一个平台，并且是最早使用众包评论来对科学任务进行分类的平台之一。澳大利亚国立大学的拉胡尔·肖姆（Rahul Shome）说：“ Sciarena鼓励人们仔细评估以大规模语言模型为支持的文学任务。”为了对这23种大型语言模型进行分类，Scialrena平台要求研究人员提出科学问题。然后他们响应两个随机选择的模型，这些res庞塞是由AI2开发的另一种研究工具语义学者文献的支持。之后，用户投票决定哪种模型具有更好的解决方案，如果有与两个模型相当的解决方案以及两个模型是否效果不佳。目前，Sciarrena平台向公众开放，该平台允许用户免费提出调查问题。所有用户都会从模型中收到答案并投票为性能，但是只有那些审查和接受相关条款的人才会在分类中计算。该公司表示，它经常更新其分类。他的乔纳森·库梅尔菲尔德（Jonathan Kumerfeld）来自澳大利亚锡德恩大学（Sydne University）和澳大利亚大学（Sydne University and Australia），他说，他帮助研究人员与他的领域的最后文献保持最新状态，并“发现可能丢失的研究”。他补充说，该平台还可以鼓励AI模型中的创新，因为该分类提供了一种透明的衡量进度方式。但是，该平台有一个潜在的问题：依赖CE用户参与。作为回应，科汉说，该平台是免费的，包括前卫模型。这是对用户的激励。。 Shaum说：“阅读大规模语言模型产生的文档的摘要不能代替阅读文档本身。” （国王的牙）

上一篇：微信纠正配件并减少使用非法工具的使用

下一篇：实时广播业务始于出售80年代东北部的拖拉机，赢

案例展示

23个AI模型中的哪个更好回答科学问题？?