数据引擎驱动的学术出版大模型

——实测检验大规模高质量数据在构建高性能模型中的核心地位

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘 要:在构建高性能大模型时,大规模高质量数据的重要性不容忽视。本研究旨在深入探究这一核心要素,并系统评估其在专业领域中的实际应用效果与潜在价值。本研究基于中国知网大量专业文献,构建了一个包含1 316.45亿token的学术资源数据集AcaDS和2 700万条指令的下游微调数据集AcaDSI,采用Transformer架构设计并训练了一个70亿参数规模的生成式学术大模型AcaLM-7B。(剩余12782字)

monitor