AI源码系统

首页 > 工具 > 数据分析 > 模型测评

FlagEval

FlagEval

FlagEval（天秤）是由北京智源人工智能研究院联合多个高校团队共同打造的大模型评测平台。该平台采用“能力—任务—指标”三维评测框架，旨在为AI大模型提供全面、细致的评测结果。FlagEval致力于建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能。

FlagEval,FlagEval（天秤）是由北京智源人工智能研究院联合多个高校团队共同打造的大模型评测平台。该平台采用“能力—任务—指标”三维评测框架，旨在为AI大模型提供全面、细致的评测结果。FlagEval致力于建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能。

简介

FlagEval（天秤）是由北京智源人工智能研究院联合多个高校团队共同打造的大模型评测平台。该平台采用“能力—任务—指标”三维评测框架，旨在为AI大模型提供全面、细致的评测结果。FlagEval致力于建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能。

主要功能

多维度评测：提供30多种能力、5种任务和4大类指标，共600多个维度的全面评测。

主客观评测数据集：任务维度包括22个主客观评测数据集，涵盖84433道题目。

可视化呈现：通过可视化手段呈现评测结果，直观展示模型在不同能力维度的表现。

持续迭代更新：平台不断更新迭代，增加新的评测数据集和指标，以适应AI技术的发展。

主要特点

全面性：覆盖自然语言处理（NLP）、计算机视觉（CV）、语音（Audio）和多模态（Multimodal）四大领域的丰富任务。

易用性：提供清晰的文档和便捷的安装流程，方便用户快速上手使用。

开放性：支持社区参与，不断迭代更新，以满足更多研究需求。

细粒度评测：从微观的特定技能到宏观的多任务适应能力，提供细粒度的评测工具。

兼容性：与主流框架和数据集无缝衔接，支持多种预训练模型。

结论

FlagEval（天秤）作为一个专业的大模型评测平台，通过其三维评测框架，为用户提供了一个全面、细致的模型评估解决方案。它不仅有助于研究人员深入理解模型的性能和局限性，而且通过持续迭代和社区参与，推动了AI评测方法的创新和发展。FlagEval（天秤）已成为推动AI技术迈向新高度的重要工具。

模型测评

最新工具

林哥的大模型野榜

一个直观比较不同大模型在各个维度上表现的工具

H2O EvalGPT

H2O LLM Eval是由H2O.ai开发的一款用于评估和比较大型语言模型（LLM）的工具。它提供了一个平台，使用户能够了解不同模型在广泛任务和基准测试中的表现，帮助用户为特定任务选择合适的模型。

PubMedQA

PubMedQA是一个专注于生物医学领域的问答数据集，它从PubMed摘要中收集并构建，用于研究和开发能够理解并回答生物医学研究问题的AI系统。该数据集由Qiao Jin和Xinghua Lu创建，并在EMNLP 2019上发布。

FlagEval

FlagEval（天秤）是由北京智源人工智能研究院联合多个高校团队共同打造的大模型评测平台。该平台采用“能力—任务—指标”三维评测框架，旨在为AI大模型提供全面、细致的评测结果。FlagEval致力于建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能。

MMBench

MMBench是由OpenCompass研究团队自建的视觉语言模型评测数据集，旨在实现对大型多模态模型从感知到认知能力的逐级细分评估。

OpenCompass（司南）

OpenCompass（司南）

一个用于诊断和提升模型的性能的一站式评测平台

MMLU

MMLU作为一项全面的多任务语言理解评估，为大语言模型提供了一个挑战性的测试平台。它不仅有助于推动语言模型的评估标准发展，也为中文语言处理技术的研究和应用提供了重要支持。

C-Eval

C-Eval是由上海交通大学、清华大学和爱丁堡大学研究人员联合推出的多层次多学科中文评估套件，旨在评测大语言模型（LLM）的中文理解能力。

与FlagEval相关

H2O EvalGPT

H2O LLM Eval是由H2O.ai开发的一款用于评估和比较大型语言模型（LLM）的工具。它提供了一个平台，使用户能够了解不同模型在广泛任务和基准测试中的表现，帮助用户为特定任务选择合适的模型。

PubMedQA

PubMedQA是一个专注于生物医学领域的问答数据集，它从PubMed摘要中收集并构建，用于研究和开发能够理解并回答生物医学研究问题的AI系统。该数据集由Qiao Jin和Xinghua Lu创建，并在EMNLP 2019上发布。

MMBench

MMBench是由OpenCompass研究团队自建的视觉语言模型评测数据集，旨在实现对大型多模态模型从感知到认知能力的逐级细分评估。

OpenCompass（司南）

OpenCompass（司南）

一个用于诊断和提升模型的性能的一站式评测平台

C-Eval

C-Eval

C-Eval是由上海交通大学、清华大学和爱丁堡大学研究人员联合推出的多层次多学科中文评估套件，旨在评测大语言模型（LLM）的中文理解能力。

林哥的大模型野榜

林哥的大模型野榜 

一个直观比较不同大模型在各个维度上表现的工具

人生若只如初见

用户登录

其它登录方式

注册 | 忘记密码

客服

微信客服
收录
按 ctrl/command+d 一键收藏本网站

关注我，组团做科研！
回顶部