Bench Models - 搜索 News

智源联合多家机构推出自动化多样性信息检索评测基准AIR-Bench

智源研究院联合Jina AI、Zilliz、HuggingFace、中国科技大学、中国人民大学、北京邮电大学等多家机构联合推出专门针对检索任务和RAG场景的评测AIR-Bench。AIR-Bench首次提出在检索评测任务中使用LLMs生产评估数据，避免模型过拟合测试数据。同时，由于使用合成数据 ...

36氪

AI科学家太多，谁靠谱一试便知，普林斯顿新基准CORE-Bench：最强模型 ...

普林斯顿大学发布CORE-Bench评测AI复现科研。普林斯顿大学新发布的CORE-Bench基准测试，通过270个基于90篇跨学科科学论文的任务，可评估AI智能体在计算可重复性方面的表现，最简单任务的准确率可以达到60%，最难任务准确率仅有21% 大模型的能力越来越强，用户在 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

智源联合多家机构推出自动化多样性信息检索评测基准AIR-Bench

AI科学家太多，谁靠谱一试便知，普林斯顿新基准CORE-Bench：最强模型 ...

今日热点