简介

C-Eval是由上海交通大学、清华大学和爱丁堡大学研究人员联合推出的多层次多学科中文评估套件,旨在评测大语言模型(LLM)的中文理解能力。

主要特点

多学科覆盖:包含52个不同学科的题目,覆盖STEM、社会科学、人文学科和其他领域。

多层次难度:题目分为四个难度级别:中学、高中、大学和专业。

大规模题库:共有13948个多项选择题,提供丰富的评估材料。

数据来源:主要基于互联网上免费提供的模拟考试,包括全国研究生入学考试的模拟问题。

数据处理:原始数据包括PDF、Microsoft Word文档和网页,通过OCR工具转换为文本并结构化。

评估目的:C-Eval的创建旨在推动LLM评估超越对话机器人范畴,更全面地评估模型能力。

持续改进:C-Eval和现有的英语语言基准仍在不断完善中,以更准确地评估LLM的推理、安全性、偏见和稳健性等能力。

使用场景

语言模型评估:研究人员和开发者可以使用C-Eval来评估和比较不同大语言模型的中文理解能力。

教育和培训:教育机构可以利用C-Eval来设计课程和训练材料,提高学生的语言和逻辑思维能力。

技术发展监控:通过C-Eval的评估结果,可以监控和理解人工智能技术在语言处理方面的进步。

结论

C-Eval作为一个创新的中文评估套件,为大语言模型的中文理解能力提供了一个全面的测试平台。它的推出不仅有助于推动语言模型的评估标准发展,也为中文语言处理技术的研究和应用提供了重要支持。随着人工智能技术的不断进步,C-Eval将继续作为评估和提升LLM性能的重要工具,同时也将促进对模型安全性、偏见和稳健性等更多维度能力的测评。