中文垂直大模型综合性基准DeepCLUE
DeepCLUE: A Benchmark for Vertical Models in Chinese
DeepCLUE基准计划按照月度进行更新,纳入更多可用中文大模型,欢迎联系与交流;数据集和进一步信息计划在下一次更新时公开,敬请期待。
中文垂直大模型基准(DeepCLUE),是针对中文可用的垂直大模型的一个测评基准。
它主要回答的问题是:在当前垂直大模型开始涌现的背景下,行业大模型的效果情况,包括但不限于"这些模型不同任务的效果情况"、"相较于国内外的通用模型表现如何"、 "这些模型与人类的效果对比如何"。
它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。DeepCLUE是中文语言理解测评基准(CLUE)在行业垂直领域深耕的一个见证者。
1、多个维度能力考察(3大类,50+子能力):从三个不同角度对中文大模型进行测试,以考察模型的专业素质;并且每一个子能力又含有十项或以上不同的细分能力。
2、自动化测评(一键测评):通过自动化测评方式以相对客观形式测试不同模型的效果,可以一键对大模型进行测评。
3、广泛的代表性模型:选取了多个国内外有代表性的可用的模型进行测评,以反映国内大模型的发展现状并了解与国际领先模型的差距或相对优劣势。
4、人类基准:在通用人工智能发展的背景下,DeepCLUE也提供了模型相对于人类效果的指标对比。
1、基础能力、专业领域能力:虽然每一部分都包含了10类子能力,但这两个能力的总数据量比较少,可能存在需要扩充数据集的问题。
2、选取模型的不完全:因为国内垂直模型还处于起步阶段,需要收集到一定基础量后再做评测;有的模型由于没有广泛对外提供服务,我们没能获取到可用的测试版本。
3、选取的能力范围:我们尽可能的全面、综合衡量模型的专业能力,但是可能有一些模型能力没有在我们的考察范围内。
4、客观考察的不足:我们以相对客观形式考察模型能力,但一些主观、开放性问题的模型能力的考察可能存在不足。
5、模型参数:当前大模型发展较快,参数量又有比较大的差异,本次的测评并没有在同一级别的参数量上进行。
-
什么时候会公布评测集和更多细节?
由于本轮评测尚未结束,数据集和进一步信息计划将在本轮DeepCLUE评测结束后公开,敬请期待。
-
测试方法?
相同的prompt情况下,让不同的模型对题目进行预测结果,与正确答案进行匹配,计算最终结果,并统计准确率(ACC)。 计算正确答案:根据模型预测结果,系统会提取答案,并计算题目的分数;为稳妥起见,人工会符合每一个模型的预测结果及其答案。
-
为什么人工测评的成绩这么高? 人类测评员是什么水平?
当前报告的人类测评的分数是采取开卷考试形式的进行的。即由每一个题目3个人类测评员进行开卷考试,最后结果进行多数投票后获得。 我们也会添加采取闭卷形式的人类分数。 人类测评员是从业多年的各垂直行业工程师。
如果使用本项目的,请引用本项目。
@misc{DeepCLUE,
author = {levie and others from DeepCLUE team},
title = {DeepCLUE: A Benchmark for Vertical Models in Chinese},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/Bluehouse/DeepCLUE}},
}