科淘

#模型测评


H2O EvalGP
H2O EvalGP

H2O LLM Eval是由H2O.ai开发的一款用于评估和比较大型语言模型(LLM)的工具。它提供...

PubMedQA
PubMedQA

PubMedQA是一个专注于生物医学领域的问答数据集,它从PubMed摘要中收集并构建,用于研究和开...

FlagEval
FlagEval

FlagEval(天秤)是由北京智源人工智能研究院联合多个高校团队共同打造的大模型评测平台。该平台采...

MMBench
MMBench

MMBench是由OpenCompass研究团队自建的视觉语言模型评测数据集,旨在实现对大型多模态模...

OpenCompas
OpenCompas

OpenCompass(司南开源评测体系)是一个为大语言模型和多模态大模型等设计的一站式评测平台。它...

C-Eval
C-Eval

C-Eval是由上海交通大学、清华大学和爱丁堡大学研究人员联合推出的多层次多学科中文评估套件,旨在评...

    16
人生若只如初见
  • 用户登录