AI源码系统

首页 > 工具 > 数据分析 > 模型测评

MMBench

MMBench

MMBench是由OpenCompass研究团队自建的视觉语言模型评测数据集，旨在实现对大型多模态模型从感知到认知能力的逐级细分评估。

MMBench,MMBench是由OpenCompass研究团队自建的视觉语言模型评测数据集，旨在实现对大型多模态模型从感知到认知能力的逐级细分评估。

简介

MMBench是由OpenCompass研究团队自建的视觉语言模型评测数据集，旨在实现对大型多模态模型从感知到认知能力的逐级细分评估。

主要特点

细粒度评估维度：数据集覆盖目标检测、文字识别、动作识别、图像理解、关系推理等20个细粒度评估维度。

大规模数据采集：从互联网公开信息与权威基准数据集采集约3000道单项选择题。

自上而下的能力维度设计：基于定义的能力维度构造评测数据集，确保评估的系统性和全面性。

引入ChatGPT：利用ChatGPT进行评测，增强评测过程的交互性和灵活性。

CircularEval评测方式：提出并采用CircularEval方法，提高评测结果的稳定性和可靠性。

解决评测问题：针对评测问题多样性不足、主观评测认知偏差、传统客观评测集测试等问题，MMBench提供了解决方案。

使用场景

多模态模型评估：研究人员和开发者可以使用MMBench评估大型多模态模型的性能。

能力维度研究：学术界可以利用MMBench研究模型在不同能力维度上的表现。

评测方法创新：通过CircularEval等评测方式，推动评测方法的创新和发展。

结论

MMBench作为OpenCompass研究团队的创新成果，为大型多模态模型的评估提供了一个全面、细致的评测框架。通过自上而下的能力维度设计和引入ChatGPT等技术，MMBench不仅提高了评测的稳定性和可靠性，也为多模态模型的研究和应用提供了重要支持。随着人工智能技术的不断发展，MMBench将继续作为评估和提升模型性能的重要工具，推动多模态人工智能领域的进步。

模型测评

OpenCompass（司南）

最新工具

林哥的大模型野榜

一个直观比较不同大模型在各个维度上表现的工具

H2O EvalGPT

H2O LLM Eval是由H2O.ai开发的一款用于评估和比较大型语言模型（LLM）的工具。它提供了一个平台，使用户能够了解不同模型在广泛任务和基准测试中的表现，帮助用户为特定任务选择合适的模型。

PubMedQA

PubMedQA是一个专注于生物医学领域的问答数据集，它从PubMed摘要中收集并构建，用于研究和开发能够理解并回答生物医学研究问题的AI系统。该数据集由Qiao Jin和Xinghua Lu创建，并在EMNLP 2019上发布。

FlagEval

FlagEval（天秤）是由北京智源人工智能研究院联合多个高校团队共同打造的大模型评测平台。该平台采用“能力—任务—指标”三维评测框架，旨在为AI大模型提供全面、细致的评测结果。FlagEval致力于建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能。

MMBench

MMBench是由OpenCompass研究团队自建的视觉语言模型评测数据集，旨在实现对大型多模态模型从感知到认知能力的逐级细分评估。

OpenCompass（司南）

OpenCompass（司南）

一个用于诊断和提升模型的性能的一站式评测平台

MMLU

MMLU作为一项全面的多任务语言理解评估，为大语言模型提供了一个挑战性的测试平台。它不仅有助于推动语言模型的评估标准发展，也为中文语言处理技术的研究和应用提供了重要支持。

C-Eval

C-Eval是由上海交通大学、清华大学和爱丁堡大学研究人员联合推出的多层次多学科中文评估套件，旨在评测大语言模型（LLM）的中文理解能力。

与MMBench相关

H2O EvalGPT

H2O LLM Eval是由H2O.ai开发的一款用于评估和比较大型语言模型（LLM）的工具。它提供了一个平台，使用户能够了解不同模型在广泛任务和基准测试中的表现，帮助用户为特定任务选择合适的模型。

PubMedQA

PubMedQA是一个专注于生物医学领域的问答数据集，它从PubMed摘要中收集并构建，用于研究和开发能够理解并回答生物医学研究问题的AI系统。该数据集由Qiao Jin和Xinghua Lu创建，并在EMNLP 2019上发布。

FlagEval

FlagEval（天秤）是由北京智源人工智能研究院联合多个高校团队共同打造的大模型评测平台。该平台采用“能力—任务—指标”三维评测框架，旨在为AI大模型提供全面、细致的评测结果。FlagEval致力于建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能。

OpenCompass（司南）

OpenCompass（司南）

一个用于诊断和提升模型的性能的一站式评测平台

C-Eval

C-Eval

C-Eval是由上海交通大学、清华大学和爱丁堡大学研究人员联合推出的多层次多学科中文评估套件，旨在评测大语言模型（LLM）的中文理解能力。

林哥的大模型野榜

林哥的大模型野榜 

一个直观比较不同大模型在各个维度上表现的工具

人生若只如初见

用户登录

其它登录方式

注册 | 忘记密码

客服

微信客服
收录
按 ctrl/command+d 一键收藏本网站

关注我，组团做科研！
回顶部