基于Python和Selenium的期刊论文施引侧数据挖掘程序设计

打开文本图片集
摘 要:为了研究中文科技期刊被国际期刊“施引侧”的引用行为,采用Python+Selenium+Chrome组合框架设计了WhoCiteMe程序,提出一种期刊论文施引侧引用信息的数据挖掘方法.文章提出了WhoCiteMe程序的设计思路,并分析了广东省10种中文科技期刊被国际期刊引用次数、学科分布、施引期刊的分区等特征.结果表明:提出的算法和设计的数据挖掘程序,可以获取国际期刊施引文献清单及引用数据,为评价中文科技期刊的国际影响力提供个性化数据,为办刊决策提供数据支撑.
关键词:科技期刊;施引侧;数据挖掘;Python;Selenium
中图分类号:G 255.2 文献标识码:A 文章编号:1007-6883(2024)06-0094-11
DOI:10.19986/j.cnki.1007-6883.2024.06.013
科技期刊承载着科学研究成果的传播重任,是学术交流的主流宣传阵地,在促进学科发展与社会进步中起到重要作用.如何提升中文科技期刊的学术影响力(特别是国际影响力),已成为期刊界共同关注的热点.如何采用量化指标定量评价和衡量各类期刊发展资助项目的投入、实施措施对提升期刊国际影响力的贡献,一直是办刊人共同关注的研究热点.2020年,中国科学技术协会支持的多家研究机构联合攻关项目提出了“科技期刊世界影响力指数(World Journal Clout Index of Scientific and Technological Periodicals,WJCI)”[1],引入总被引频次与影响因子双指标(WAJCI)、量效指数(JMI)、网络影响力指标(WI),基于“同类可比”原则,提出一套综合评价体系,避免了使用“影响因子”单一指数评价的局限性,使期刊的国际影响力评价更全面、更客观.胡小洋等[2]基于国际他引影响因子、国际即年指标、可被引文献量等数据,提出一种基于改进的DID模型和学术期刊综合表现力指数,用以构建对学术期刊资助项目实施效果的评价方法,该方法在学术期刊自主项目实施效果评价实践中具有推广价值.目前各类科技期刊的评价体系均基于被引数据,而基于“施引侧”的数据分析较少.2021年,徐琳宏等[3]以自然语言处理领域为例,尝试在施引文献视角下研究了正面引用和中性引用论文的影响力差异及其影响因素,以期矫正因引用同一化问题而导致的仅以被引频次评估带来的偏差.2023年,Francis等[4]针对目前包括Web of Science在内的几乎所有数据库都从“被引侧”(Cited side)设置文献计量指标的现状,首次提出“施引侧”(Citing side)文献计量指标设置的可行性,探讨其优势与应用,并建议文献计量指标由“被引侧”转向“施引侧”将提高文献计量指标的实用性、及时性.
生成式人工智能时代(GenAI Era)的到来为学术研究和出版带来了机遇与挑战[5],学术研究过程以及施引行为将变得更加扑朔迷离,单纯考察被引次数的影响因子不足以了解期刊论文的学术价值.Python数据挖掘与分析可为各行各业提供决策[6-7].尽管CiteSpace软件可以分别对中文文献、英文文献进行知识图谱分析,但无法挖掘中文论文被外文期刊施引数据,不能满足单篇论文和单本期刊的个性化数据分析需求。(剩余9067字)