大规模多任务中文理解能力测试

  • 打印
  • 收藏
收藏成功


打开文本图片集

关键词:中文大模型;多任务评测;zero-shot;few-shot;垂直领域任务

0引言

随着ChatGPT[1]等大模型的惊艳亮相,ChatGLM[2]、MOSS[3]、文心一言、通义千问、商量等具备中文能力的大模型也相继发布。虽然针对英文大语言模型已有较为完善的评测方式(如MMLU[4]),但目前仍缺乏针对中文大语言模型的评测方法。(剩余5913字)

目录
monitor