数字出版业人工智能高质量数据集的现状、问题和建议

打开文本图片集
摘 要:2025年初,以DeepSeek-R1为代表的大模型引发了社会各界的研究讨论,未来数据规模与质量的双重突破将进一步推动国产大模型的训练与优化,形成“数据驱动、算法与算力升级”的螺旋式创新路径。数字出版行业的精品内容作为高质量数据集的重要组成部分,亟待挖掘和研究。文章基于人工智能高质量数据集发展趋势,在对数字出版高质量数据集开发现状分析的基础上,剖析当下存在的问题,并从完善政策、制定标准、夯实底座、伦理考量、搭建队伍等角度提出意见建议,旨在推动数字出版全面助力“人工智能+”行动计划。(剩余13462字)