大语言模型文档图像智能问答指令设计与微调方法实证研究

打印
收藏

收藏成功

微博 QQ空间微信

打开文本图片集

摘要：文档图像智能问答是实现数字图书馆智能化的关键技术之一。基于多模态预训练模型的文档图像智能问答技术能有效实现文本、视觉和布局信息的融合，但通常需要进行针对性的微调训练，成本高且无法应用于一些数据资源稀缺的场景。以ChatGPT为代表的大语言模型具有良好的零样本学习能力，无需针对性微调即可在各个下游任务上取得良好表现，但大语言模型只能处理纯文本指令，无法直接处理文档图像。（剩余22794字）

试读结束

购买全文6.00元下一篇基于AI智能体和关键词映射图谱的同义术语挖掘研究

数字图书馆论坛

2025年01期

¥28.89/本