中文大模型基准测评2023年度报告.pdf

自2022年11月30日ChatGPT发布以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段，即准备期（ChatGPT发布后国内产学研迅速形成大模型共识）、成长期（国内大模型数量和质量开始逐渐增长）、爆发期（各行各业开源闭源大模型层出不穷，形成百模大战的竞争态势）。

趋势

过去半年，国内领军大模型企业实现了大模型代际追赶的奇迹，从7月份与GPT3.5的20分差距，每个月都有稳定且巨大的提升，到11月份测评时已经完成总分上对GPT3.5的超越。我们可以看到GPT3.5和GPT4在中文上的表现情况基本一致，在11月份测评结果中显示，在中文能力都有一定的下滑，而国内头部模型则展现了继续稳健提升的能力。在12月份的测评结果中可以看到，国内第一梯队模型与GPT4的差距在缩小。但仍有较大的距离需要追赶。

说明

趋势展示，选取了7月-12月SuperCLUE-OPEN测评分数。国内代表性模型，选取了文心一言、通义千间、ChatGLM，原因是综合考虑了过去半年SuperCLUE测评结果、长期稳定迭代及对国内大模型生态的贡献;GPT4成绩，由GPT4-API(7-9月)与GPT4-Turbo(10-12月)组成，用以表现国外最好模型发展。

下载链接：https://pan.baidu.com/s/1cJN19RUkB5fifSd75lSwzw 提取码: mosi

报告预览

报告目录