基于自动化知识蒸馏与LoRA的领域专用小型语言模型微调方法研究

  • 打印
  • 收藏
收藏成功


打开文本图片集

0引言

近年来,以ChatGPT、DeepSeek、Qwen等为代表的大型语言模型(LargeLanguageModel,LLM)取得了突破性进展,展现出在自然语言理解、文本生成、代码编写乃至科学发现和艺术创作等任务中的卓越能力。这些模型凭借其庞大的参数规模和在海量数据上的预训练,获得了强大的泛化和推理能力

然而,随着LLM规模的增长,其训练和推理过程消耗的计算和存储资源也显著增加。(剩余4333字)

目录
monitor