面向医学领域生成任务的大语言模型性能评测研究

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘要:文章针对医学领域大语言模型评测的不足,构建了4个医学评测任务,并选取8个中文开源大语言模型进行性能评估。结果表明,通用模型 Qwen2.5-7B-Instruct 表现最佳,而现有开源医学领域大语言模型的性能相对较差。研究还发现,指令遵循能力较强的大语言模型在医学领域任务中具有更大的优势。本研究为医学领域大语言模型的选择和优化方向提供了重要参考。(剩余12189字)

目录
monitor