分位回归基于最优去相关得分的子抽样算法

打开文本图片集
摘要:针对海量数据下高维分位回归模型,首先,构造基于去相关得分函数的子抽样算法,以估计感兴趣的低维参数;其次,推导所提估计的极限分布,并根据渐近协方差矩阵求出L-最优准则下的子抽样概率,给出高效的两步算法.模拟和实证分析结果表明,最优子抽样方法显著优于均匀子抽样方法.
关键词:去相关得分;高维;海量数据;分位回归;子抽样
中图分类号:O212.2文献标志码:A文章编号:1671-5489(2024)05-1102-11
Subsampling Algorithm for Quantile Regression Based on Optimal Decorrelation Score
HUANG Xiaofeng,ZOUYuhao,YUAN Xiaohui
(School of Mathematics and Statistics,Changchun University of Technology,Changchun 130012,China)
Abstract:For the high-dimensional quantile regression model with massive data,firstly,a subsampling algorithm based on the decorrelation score function was constructed to estimate the low-dimensional parameters of interest.Secondly,we derived the limit distribution of the proposed estimates and calculated the subsampling probability under the L-optimal criterion according to the asymptotic covariance matrix,giving an efficient two-step algorithm.The simulation and empirical analysis results show that the optimal subsampling method is significantly superior to the uniform subsampling method.
Keywords:decorrelationscore;high-dimensional;massivedata;quantileregression;subsampling
目前海量数据的处理方式主要有三类方法:分布式计算[1-3]、子抽样算法[47]和数据流估计[8-0],其中子抽样方法可减少资源消耗,提高处理速度,降低成本,保持数据代表性,因而受到广泛关注,并已取得了许多研究结果.例如:Fithian等[4]将子抽样方法推广到逻辑回归中;Ma等[0]探讨了子抽样算法在线性回归中参数估计的统计特性;Ai等和Fan等[2]分别将子抽样算法应用到广义线性模型和线性分位回归中,并在一般抽样方法下建立了估计量渐近正态性的理论基础;袁晓惠等[基于D-最优准则构造了分位回归中信息阵的最优子抽样方法;Wang等4构造了基于L-最优准则下分位回归模型的最优子抽样方法.虽然子抽样算法在研究低维参数估计问题方面取得了一些成果,但对高维海量数据分析方法的研究目前仍处于探索阶段,例如,Gao等5]研究了广义线性模型中在干扰参数影响下对关注的低维参数实施最优子抽样估计及推断的统一框架,但其研究主要集中在广义线性模型参数的估计,并未涉及其他类型的模型.
在众多数据分析模型中,分位回归6]因其能揭示响应变量的全方位特征并从中获取丰富信息而备受关注.它通常采用加权最小绝对差方法进行估计,因而对离群点不敏感,能提供更稳健的结果,从而得到广泛关注.例如,Wang等]分析了纵向数据中部分线性变系数模型的分位估计;袁晓惠等在部分协变量随机缺失机制下的分位回归模型中,提出了回归参数的诱导光滑加权估计及其渐近协方差估计;Wang等[s]针对删失分位回归提出了一种新的基于多重稳健倾向得分的估计方法;Cheng等[20]提出了正则化的投影评分方法,以解决高维混杂协变量存在下分位回归的参数估计问题.但在高维海量数据下进行分位回归模型参数估计的研究目前文献报道较少。(剩余9349字)