SuperCLUE是一个对中文通用大模型的综合性评测基准,旨在对大模型在各个能力维度上的表现进行全方位的评估。此次我们将对2023年9月的评测榜单进行深度剖析,探索各大模型的性能表现和行业趋势。
SuperCLUE的评测主要关注大模型的四个能力象限,包括语言理解与生成、专业技能与知识、AI智能体和安全性,进一步细化为12项基础能力。具体包括:
- 语言理解与生成:包括语言理解与抽取、上下文对话、生成与创作、角色扮演等方面;
- 专业技能与知识:涵盖了计算、逻辑与推理、代码、知识与百科等专业知识技能;
- AI智能体:包括工具使用和任务规划两个关键能力,是当前与大语言模型相关的前沿研究热点;
- 安全性:关注大模型对可能引起困扰或伤害的内容的生成的防护能力。
SuperCLUE的评测分为"OPEN多轮开放问题"和"OPT三大能力客观题"两部分。OPEN多轮开放问题通过与基线模型对战,根据胜、和、负的结果计算得分——胜利得3分,平手得1分,失败不得分。而OPT三大能力客观题则根据题目的得分汇总而来(每个题目的得分/总题目数)。
这两部分的权重分别是60%和40%,这一设计充分考虑到了多轮主观题的能力尤为重要,以此来更好地评估中文大模型的真实综合能力。
根据9月榜单,我们可以发现OpenAI的GPT4模型以83.2的总分位列榜首,表现出卓越的综合性能。而在各项单项能力中,GPT4也均表现出较强的实力,尤其在语言理解与生成、专业技能与知识、AI智能体三个方面,GPT4均位列第一。此外,我们还可以从榜单中看到一些模型在特定领域的出色表现,例如,ChatGLM2-Pro在大模型安全性方面表现突出,位列第二;而在AI Agent智能体能力方面,SenseChat 3.0的表现也十分突出,紧随GPT4之后位列第二。
在本次新增的AI Agent智能体榜单中,OpenAI的GPT4以91.67的总分位列第一,其次是商汤科技的SenseChat 3.0和Authropic的Claude2。这表明这些模型在工具使用和任务规划两个关键能力上表现优秀,拥有类似贾维斯等科幻电影中人类超级助手的能力,可以根据需求自主完成任务。
模型 | 总分 | 工具使用 | 任务规划 |
---|---|---|---|
GPT4 | 91.67 | 94.44 | 88.89 |
SenseChat 3.0 | 69.7 | 46.67 | 87.72 |
Claude2 | 66.67 | 63.89 | 69.44 |
在大模型安全性的评测中,我们重点关注模型对可能引起困扰或伤害的内容的生成的防护能力。在这一方面,GPT4模型以81.25的总分位居第一,其次是清华&智谱AI的ChatGLM2-Pro、字节跳动的豆包,这些模型在防止生成可能引起困扰或伤害的内容方面表现出了良好的能力。
模型 | 总分 | 传统安全 | 指令攻击 |
---|---|---|---|
GPT4 | 81.25 | 83.93 | 77.51 |
ChatGLM2-Pro | 67.71 | 67.86 | 67.53 |
豆包 | 59.38 | 64.29 | 52.45 |
专业技能与知识是衡量模型在专业领域的理解和应用能力,包括计算、逻辑与推理、代码、知识与百科等方面。 在这个维度上,GPT4/Claude2/gpt3.5处在领先位置,国内模型文心一言、商汤、豆包表现出色。
模型 | 总分 | 计算 | 逻辑与推理 | 代码 | 知识与百科 |
---|---|---|---|---|---|
GPT4 | 90.51 | 71.88 | 96.25 | 100 | 100 |
Claude2 | 71.84 | 73.96 | 77.5 | 62.5 | 73.33 |
gpt-3.5-turbo | 63.29 | 52.08 | 70 | 62.5 | 73.33 |
语言理解与生成是衡量模型在理解和产生语言方面的能力,包括语言理解与抽取、上下文对话、生成与创作、角色扮演等方面。在这个维度上,GPT4模型以77.11的总分位列第一,其次是Baichuan2-13B-Chat模型和gpt-3.5-turbo模型。
模型 | 总分 | 语言理解与抽取 | 上下文对话 | 生成与创作 | 角色扮演 |
---|---|---|---|---|---|
GPT4 | 77.11 | 100 | 43.75 | 73.61 | 41.67 |
Baichuan2-13B-Chat | 68.37 | 86.11 | 57.5 | 68.06 | 54.17 |
gpt-3.5-turbo | 62.05 | 72.22 | 51.25 | 69.44 | 51.39 |
SuperCLUE的评测结果为我们提供了宝贵的洞察,让我们更好地理解各大模型的性能和能力。特别是新加入的AI Agent智能体和大模型安全性的评测,为我们揭示了大模型在复杂任务和实际应用中的潜力和挑战。未来,我们期待看到更多的模型在这些领域取得突破,推动AI技术的发展。
如果您对SuperCLUE的评测感兴趣,欢迎访问SuperCLUE榜单官网或查阅SuperCLUE的技术报告,以获取更为详细的信息。