首页
工具
测序
合集
牛魔王
申请收录
返回
数据分析
组学数据
医学数据
其它数据
代码编程
模型测评
模型训练
文章复现
数据可视
科研绘图
科研配色
图片处理
模式图
思维导图
图片素材
科研论文
科研方向
文献查找
文献下载
翻译阅读
文章撰写
润色校对
文章查重
论文排版
PPT制作
科研实验
实验方案
科研耗材
科研仪器
云实验室
算力平台
数据库
综合库
基因组
转录组
代谢组
蛋白组
表观组
单细胞
微生物
其它
科技好物
智能搜索
科研笔记
资源下载
开源项目
浏览器插件
其它好物
基金期刊
基金项目
期刊查询
投稿选刊
专利查询
智识共享
科研社区
学习资料
云图书馆
AI工具
AI大模型
AI提示词
AI内容检测
AI算力工具
种业资源
智慧畜牧
数字农业
兼职毕业
兼职平台
在校实习
模型测评
个性推荐
数据分析
组学数据
医学数据
其它数据
代码编程
模型测评
模型训练
文章复现
林哥的大模型野榜
林哥的大模型野榜
一个直观比较不同大模型在各个维度上表现的工具
模型测评
H2O EvalGPT
H2O EvalGPT
H2O LLM Eval是由H2O.ai开发的一款用于评估和比较大型语言模型(LLM)的工具。它提供了一个平台,使用户能够了解不同模型在广泛任务和基准测试中的表现,帮助用户为特定任务选择合适的模型。
模型测评
PubMedQA
PubMedQA
PubMedQA是一个专注于生物医学领域的问答数据集,它从PubMed摘要中收集并构建,用于研究和开发能够理解并回答生物医学研究问题的AI系统。该数据集由Qiao Jin和Xinghua Lu创建,并在EMNLP 2019上发布。
模型测评
FlagEval
FlagEval
FlagEval(天秤)是由北京智源人工智能研究院联合多个高校团队共同打造的大模型评测平台。该平台采用“能力—任务—指标”三维评测框架,旨在为AI大模型提供全面、细致的评测结果。FlagEval致力于建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。
模型测评
MMBench
MMBench
MMBench是由OpenCompass研究团队自建的视觉语言模型评测数据集,旨在实现对大型多模态模型从感知到认知能力的逐级细分评估。
模型测评
OpenCompass(司南)
OpenCompass(司南)
一个用于诊断和提升模型的性能的一站式评测平台
模型测评
MMLU
MMLU
MMLU作为一项全面的多任务语言理解评估,为大语言模型提供了一个挑战性的测试平台。它不仅有助于推动语言模型的评估标准发展,也为中文语言处理技术的研究和应用提供了重要支持。
C-Eval
C-Eval
C-Eval是由上海交通大学、清华大学和爱丁堡大学研究人员联合推出的多层次多学科中文评估套件,旨在评测大语言模型(LLM)的中文理解能力。
模型测评
共
1
页
8
条
首页
工具
测序
合集
用户登录
其它登录方式
阅读并同意《免责声明》
注册
|
忘记密码
客服
微信客服
收录
按 ctrl/command+d 一键收藏本网站
关注我,组团做科研!
回顶部