个性推荐
林哥的大模型野榜
一个直观比较不同大模型在各个维度上表现的工具
H2O EvalGPT
H2O LLM Eval是由H2O.ai开发的一款用于评估和比较大型语言模型(LLM)的工具。它提供了一个平台,使用户能够了解不同模型在广泛任务和基准测试中的表现,帮助用户为特定任务选择合适的模型。
PubMedQA
PubMedQA是一个专注于生物医学领域的问答数据集,它从PubMed摘要中收集并构建,用于研究和开发能够理解并回答生物医学研究问题的AI系统。该数据集由Qiao Jin和Xinghua Lu创建,并在EMNLP 2019上发布。
FlagEval
FlagEval(天秤)是由北京智源人工智能研究院联合多个高校团队共同打造的大模型评测平台。该平台采用“能力—任务—指标”三维评测框架,旨在为AI大模型提供全面、细致的评测结果。FlagEval致力于建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。
MMBench
MMBench是由OpenCompass研究团队自建的视觉语言模型评测数据集,旨在实现对大型多模态模型从感知到认知能力的逐级细分评估。
OpenCompass(司南)
一个用于诊断和提升模型的性能的一站式评测平台
MMLU
MMLU作为一项全面的多任务语言理解评估,为大语言模型提供了一个挑战性的测试平台。它不仅有助于推动语言模型的评估标准发展,也为中文语言处理技术的研究和应用提供了重要支持。
C-Eval
C-Eval是由上海交通大学、清华大学和爱丁堡大学研究人员联合推出的多层次多学科中文评估套件,旨在评测大语言模型(LLM)的中文理解能力。
    18
人生若只如初见
  • 用户登录