国产大语言模型的语文作文评价能力测试

打开文本图片集
摘要:大语言模型作为人工智能的最新技术成果,将对数智时代的教育样态产生深刻影响。为调查大语言模型的作文评价能力,文章选取500篇小学语文作文,设计了37条提示语,以“智谱AI”“讯飞星火”这两款国产大语言模型为测试工具,从评分和评语两个方面进行评价,发现:在评分的可用性上,国产大语言模型的评分与原始分数具有微弱相关关系;在评分的稳定性上,国产大语言模型前后两次评分的相关度低、稳定性较差,而前后两次评级的相关度高、稳定性较好;在评语的准确率方面,国产大语言模型在内容选择、篇章结构方面的作文评语准确率较高;在评语的稳定性方面,国产大语言模型的评语具有生成性,前后两次生成的评语相似度低。(剩余12012字)