简介

MMBench是由OpenCompass研究团队自建的视觉语言模型评测数据集,旨在实现对大型多模态模型从感知到认知能力的逐级细分评估。

主要特点

细粒度评估维度:数据集覆盖目标检测、文字识别、动作识别、图像理解、关系推理等20个细粒度评估维度。

大规模数据采集:从互联网公开信息与权威基准数据集采集约3000道单项选择题。

自上而下的能力维度设计:基于定义的能力维度构造评测数据集,确保评估的系统性和全面性。

引入ChatGPT:利用ChatGPT进行评测,增强评测过程的交互性和灵活性。

CircularEval评测方式:提出并采用CircularEval方法,提高评测结果的稳定性和可靠性。

解决评测问题:针对评测问题多样性不足、主观评测认知偏差、传统客观评测集测试等问题,MMBench提供了解决方案。

使用场景

多模态模型评估:研究人员和开发者可以使用MMBench评估大型多模态模型的性能。

能力维度研究:学术界可以利用MMBench研究模型在不同能力维度上的表现。

评测方法创新:通过CircularEval等评测方式,推动评测方法的创新和发展。

结论

MMBench作为OpenCompass研究团队的创新成果,为大型多模态模型的评估提供了一个全面、细致的评测框架。通过自上而下的能力维度设计和引入ChatGPT等技术,MMBench不仅提高了评测的稳定性和可靠性,也为多模态模型的研究和应用提供了重要支持。随着人工智能技术的不断发展,MMBench将继续作为评估和提升模型性能的重要工具,推动多模态人工智能领域的进步。