国产大语言模型的语文作文评价能力测试

打印
收藏

收藏成功

微博 QQ空间微信

打开文本图片集

摘要：大语言模型作为人工智能的最新技术成果，将对数智时代的教育样态产生深刻影响。为调查大语言模型的作文评价能力，文章选取500篇小学语文作文，设计了37条提示语，以“智谱AI”“讯飞星火”这两款国产大语言模型为测试工具，从评分和评语两个方面进行评价，发现：在评分的可用性上，国产大语言模型的评分与原始分数具有微弱相关关系；在评分的稳定性上，国产大语言模型前后两次评分的相关度低、稳定性较差，而前后两次评级的相关度高、稳定性较好；在评语的准确率方面，国产大语言模型在内容选择、篇章结构方面的作文评语准确率较高；在评语的稳定性方面，国产大语言模型的评语具有生成性，前后两次生成的评语相似度低。（剩余12012字）

试读结束

购买全文6.00元下一篇 GenAI赋能的人机双师协同教学研究

现代教育技术

2025年03期

¥6.00/本