基于Spark和NRSCA策略的并行深度森林算法

打印
收藏

收藏成功

微博 QQ空间微信

打开文本图片集

摘要：针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题，提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先，该算法提出了基于邻域粗糙集和Fisher score的特征选择策略（FS-NRS），通过衡量特征的相关性和冗余度，对特征进行过滤，有效减少了冗余及无关特征的数量；其次，提出了一种随机选择和等距提取的扫描策略（S-RSEE），保证了所有特征能够同概率被利用，解决了多粒度扫描两端特征利用率低的问题；最后，结合Spark框架，实现级联森林并行化训练，提出了基于重要性指数的特征筛选机制（FFM-II），筛选出非关键性特征，平衡增强类向量与原始类向量维度，从而加快模型收敛速度，同时设计了基于SCA的任务调度机制（TSM-SCA），将任务重新分配，保证集群负载均衡，解决了级联森林并行效率低的问题。（剩余22839字）

试读结束

购买全文6.00元下一篇多策略融合的蛇优化算法及其应用

计算机应用研究

2024年01期

¥12.00/本