大语言模型文档图像智能问答指令设计与微调方法实证研究

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘要:文档图像智能问答是实现数字图书馆智能化的关键技术之一。基于多模态预训练模型的文档图像智能问答技术能有效实现文本、视觉和布局信息的融合,但通常需要进行针对性的微调训练,成本高且无法应用于一些数据资源稀缺的场景。以ChatGPT为代表的大语言模型具有良好的零样本学习能力,无需针对性微调即可在各个下游任务上取得良好表现,但大语言模型只能处理纯文本指令,无法直接处理文档图像。(剩余22794字)

monitor