一种基于领域知识的检索增强生成方法

打开文本图片集
摘 要:
为了提高当前大语言模型(large language model,LLM)在利用检索文档生成答案时的准确性,提出一种基于领域知识的检索增强生成(retrieval-augmented generation,RAG)方法。首先,在检索过程中通过问题和领域知识进行第1层的稀疏检索,为后续的稠密检索提供领域数据集;其次,在生成过程中采用零样本学习的方法,将领域知识拼接在问题之前或之后,并与检索文档结合,输入到大语言模型中;最后,在医疗领域和法律领域数据集上使用大语言模型ChatGLM2-6B、Baichuan2-7B-chat进行多次实验,并进行性能评估。(剩余17112字)