第42卷第1期吉林师范大学学报(自然科学版)Vol.42ꎬNo.1㊀2021年2月
JournalofJilinNormalUniversity(NaturalScienceEdition)
Feb.ꎬ2021
收稿日期:2020 ̄11 ̄28
基金项目:国家自然科学基金项目(11571051ꎬ11671054)
第一作者简介:董小刚(1961 )ꎬ男ꎬ吉林省长春市人ꎬ教授ꎬ博士ꎬ博士生导师.研究方向:高频数据分析㊁希尔伯特黄变换(HHT)分析和生物统计.
doi:10.16862/j.cnki.issn1674 ̄3873.2021.01.007
右删失数据下带辅助信息的部分线性
分位数回归模型经验似然推断
董小刚ꎬ郭志元
(长春工业大学数学与统计学院ꎬ吉林长春130012)
摘㊀要:利用经验似然结合辅助信息的方法来改进右删失数据下部分线性分位数回归模型的参数估计ꎬ通过数值模拟在不同的右删失数据和不同的未知非参数函数下ꎬ比较了传统部分线性分位数回归方法和带辅助信息的部分线性分位数回归方法的估计结果的均方误差ꎬ进而证明了利用经验似然方法结合辅助信息的部分线性分位数回归方法更有效.
长春分类信息关键词:右删失数据ꎻ辅助信息ꎻ部分线性ꎻ分位数回归模型ꎻ经验似然方法
中图分类号:O201.4㊀㊀文献标志码:A㊀㊀文章编号:1674 ̄3873 ̄(2021)01 ̄0034 ̄06
0㊀引言
在许多学科领域ꎬ如医学㊁生物学㊁保险精算学㊁可靠性工程学㊁公共卫生学㊁经济学以及人口统计学等领域ꎬ都存在对某给定事件发生的时间进行评估和预测的问题.研究事件发生时间的规律问题就是生存分析问题.在生物统计数据中ꎬ医学工作者和生物统计学家最关心的往往是病人的生存时间.根据观测对象进入或退出观察时间的差别ꎬ生存分析经常遇到的数据有删失和截尾两种类型.删失数据主要包括左删失㊁右删失和区间删失ꎬ右删失数据是删失数据中很重要的一类数据ꎬ对该类数据进行研究有一
定的意义.而在针对统计数据时人们往往利用辅助信息[1]来提高估计的精度ꎬ辅助信息经常应用在抽样方法中ꎬ例如罗薇和曾琼军[2]对于删失数据以及缺失数据ꎬ采用辅助抽样框将删失数据或缺失数据与抽样总体单元进行某种方式的联接ꎬ或者利用相关辅助材料对缺失数据或删失数据进行推算ꎬ计算缺失数据或删失数据带来估计量偏差的影响.
A.Owen[3]提出的经验似然方法ꎬ证明了该统计量在特定情况下渐近服从卡方分布ꎬ还介绍了如何
得到参数的估计和置信区间.本文在R.Koenker和G.W.Bassett[4]提出的分位数回归的基础上利用A.Owen[3]提出的经验似然方法结合辅助信息对其进行了改进.在非参数估计中应用经验似然方法是非常常见的ꎬ例如:钱永江[5]将经验欧式似然应用于半参数模型中ꎬ讨论了在此模型下两强平稳m相依参数差异的经验欧式似然置信区间ꎻ段智力[6]将经验似然方法推广到等式线性约束下的线性模型中ꎬ得到了参数经验似然比的置信区间ꎬ在普通数据下使用经验似然结合辅助信息的分位数回归方法进行参数估计ꎬ如此可以利用经验似然方法结合辅助信息改进分位数回归对参数的估计.如Y.G.Cheng和C.L.Leng[7]考虑如何通过经验似然结合辅助信息来改进分位数回归ꎬ提出了一个全新的框架ꎬ并表明与传统的分位数回归相比ꎬ该方法产生更有效的估计ꎬ并通过模拟研究证明该方法是有效的.本文在前人的基础上ꎬ利用经验似然结合辅助信息改进了右删失数据下部分线性分位数回归模型的参数估计.
第1期董小刚ꎬ等:右删失数据下带辅助信息的部分线性分位数回归模型经验似然推断
本文首先阐述了部分线性分位数回归模型以及其对应的一部分理论知识ꎬ然后将此模型利用
Kaplan ̄Meier估计方法[8]结合到右删失数据中ꎬ在右删失数据部分线性分位数回归模型下构造一个估计方程ꎬ进一步利用经验似然结合辅助信息改进部分线性分位数回归方法ꎬ并通过模拟研究证明利用经验似然结合辅助信息的部分线性分位数回归方法比传统部分线性分位数回归方法更有效.
1㊀部分线性分位数回归模型
考虑如下的部分线性回归模型[9]
Ti=xTiβ+h(ti)+εiꎬi=1ꎬ2ꎬ ꎬn.
(1)
其中:βɪp是代表回归系数的一个列向量ꎻh( )为未知非参数函数ꎻεi是均值为0方差为σ2的随机变量ꎻTi代表感兴趣事件的发生时间ꎬ且假定tiɪ[0ꎬ1].故此时模型为部分线性回归模型.
假定β=β0已知ꎬ由式(1)可以得到
Ti-xTiβ=h(ti)+εiꎬi=1ꎬ2ꎬ ꎬn.此时该式可以看成一个非参数模型ꎬ根据权函数的方法可以得到h(t)的估计为
h~
(t)=
ðn
k=1
Wk(t)(yk-xTkβ).
其中:Wk(t)=Wk(tꎬt1ꎬt2ꎬ ꎬtn)为概率权函数[10]ꎻ概率权函数Wk(t)为
Wk(ti)=
Knti
-tkhnæèç
öø
÷
ðn
m=1
Knti-tmhnæèç
ö
ø÷
ꎬ
hn为窗宽ꎬKn为核函数.
将h~
(t)带入模型(1)ꎬ此时该模型为线性模型ꎬ不同分位点下的回归系数的估计可以通过最小化如
下的式子求解:
β^
τ=argminβ
ðn
i=1ρτ(y~
i-x~
Tiβτ).
(2)
将β^
带入h~
(t)得到h(t)的估计
h~
(t)=
ðn
k=1
Wk(t)(yk-xTkβ^
)ꎬ
其中τɪ(0ꎬ1).参数βτ称为回归参数的第τ分位数ꎬx~
i=xi-
ðn
k=1
Wk(ti)xkꎬy~
i=yi-
ðn
k=1
Wk(ti)yk.2㊀右删失数据下部分线性分位数回归模型
在生存分析中ꎬ一般考虑n个独立个体ꎬ并且这n个独立个体全部都是右删失的ꎬ此时右删失部分
线性的数据结构形式可以表示为
{yiꎬδi=I(Ti<Ci)ꎬxiꎬtiꎬi=1ꎬ2ꎬ ꎬn}.
其中:yi=min(TiꎬCi)为第i个个体的观测时间ꎻCi表示第i个个体的删失时间ꎻTi表示第i个个体的失效时间ꎻδi=I(Ti<Ci)为一示性变量ꎻxi表示与生存时间有关的协变量ꎻti表示与未知非参数函数h( )有关的变量.
由于数据为右删失数据ꎬ所以Ti被随机删失ꎬ针对部分线性分位数模型有
x~
i=xi-ðn
k=1
Wk(ti)xkꎬy~i=yi-
ðn
k=1
Wk(ti)yk.其中Wk(t)=Wk(tꎬt1ꎬt2ꎬ ꎬtn)为概率权函数.
5
3
吉林师范大学学报(自然科学版)第42卷
此时假设p(δi=1|x~
i)=G(x~
i)ꎬ通常无法知道感兴趣事件确切的发生时间ꎬ只知道感兴趣事件确切的发生时间Ti是在观测时间yi之前或之后发生ꎬ故利用非参数方法估计G^
(x~
i).
由于G(x~
i)=p(δi=1|x~
i)=p(Ti<Ci|x~
i)在给定xi时Ti的条件分布是未知的ꎬ故使用Kaplan ̄
Meier估计方法来估计G(x~
i)ꎬ具体为
G^
(Ci|x~
i)=1-
ᵑn
j=1
1-
Bnj(x~
i)
ðn
k=1
I(YkȡYj)Bnk(x~
i){
}
ηj(Ci)
.
其中:
ηj(Ci)=I(YjɤCjꎬδj=1)ꎻBnk(x~
i)=
Knx~i
-x~
khnæèç
öø
÷
ðn
m=1
Knx~i-x~
mhn
æèç
ö
ø÷
ꎬ
hn为窗宽ꎬKn为核函数.
本文窗宽[11]hn选取hn=1.06ˑmin(dꎬz)ˑn-1/5ꎬ其中d为样本方差ꎬz=R/1.34ꎬR为样本的四分位差ꎻ核函数Kn选取Quartic(Biweight)核Kn(u)=15(1-u2)2I(|u|ɤ1)/16.
令Qτ(yi|xi)代表在给定协变量xi后yi的第τ点的分位数ꎬ并且假定Qτ(yi|xi)与xi的关系为Qτ
(yi|xi)=xTiβτꎬ故不同分位点下的右删失数据下部分线性回归系数的估计可以通过最小化如下的式子求解:
β^
τ=argminβ
ð
n
i=1δi
G^
(x~
i)
ρτ(y~
i-x~
Tiβτ).
3 右删失数据下部分线性分位数回归模型的经验似然推断
对于右删失数据下部分线性分位数回归模型有:
x~
i=xi-ðn
k=1
Wk(ti)xkꎬy~i=yi-
ðn
k=1
Wk(ti)yk.其中Wk(t)=Wk(tꎬt1ꎬt2ꎬ ꎬtn)为概率权函数.
经验似然方法是A.Owen[3]提出的一种非参数的统计方法.经验似然方法的核心思想是构造无偏
的估计方程ꎬ即满足Egi(β)=0.对于右删失数据下部分线性分位数回归模型ꎬ辅助信息量为E(gi(β|
x~
iꎬti))=0ꎬ则可以得到gi(β)是一个无偏的估计方程ꎬ假定数据x1ꎬx2ꎬ ꎬxn的分布未知ꎬ然后引入经
验似然方法.
maxᵑn
i=1
pi|piȡ0ꎬðn
i=1
pi=1ꎬðn
i=1
pigi(β)=0{}ꎬ
引入Lagrange乘数法得到
L(β|y~
1ꎬy~
2ꎬ ꎬy~n)=
ðn
i=1
log(pi)-μðn
i=1
pi-1()-nλ
T
ðn
i=1
pigi(β).(3)
其中:μꎬλ是拉格朗日乘数[12]ꎻpi=dF(x~
i)ꎬi=1ꎬ2ꎬ ꎬn.
对式(3)关于piꎬμꎬλ分别求偏导得到
ƏLƏpi=1
pi
-μ-nλTgi(β)=0ꎻ6
3
第1期董小刚ꎬ等:右删失数据下带辅助信息的部分线性分位数回归模型经验似然推断
ƏL
Əμ
=-ðn
i=1
pi
-1()=0ꎻ
ƏL
Əλ=-nðn
i=1
pigi(β)=0.第一个等式两边同乘pi可得
pi
ƏL
Əpi
=1-μpi-nλTpigi(β)=0ꎬ(4)ðpiƏL
Əpi=n-μðn
i=1pi-nλTðn
i=1
pigi(β)=0ꎬ(5)
根据式(5)可得n=μꎬ代入式(4)可得
p^
i=
1n 11+λTgi(β^)
ꎬ其中λ=(λ1ꎬλ2ꎬ ꎬλp)是下面方程的解
1
nðn
i=1gi(β)1+λTgi(β)
=0.定义β在真值β0处的经验似然函数为L(β)=R(β)/nn=ᵑn
i=1
piꎬ
则β0处的经验似然比为
R(β0)=ᵑn
i=1{npi}=ᵑn
i=11
1+λT
gi(β0
)
ꎬ相应的对数经验似然比为
l(β0)=-2logR(β0)=2ðn
i=1
log(1+λTgi(β0)).
右删失数据下部分线性分位数回归模型利用无偏的估计方程E(gi(β|x~
iꎬti))=0作为辅助信息引
入经验似然方法求得自适应权值p^iꎬ将经验似然的自适应权值p^
i作为权重与部分线性分位数回归模型
相结合对参数进行估计:
β^
ω=argminβ
Lω(β)ꎬ
其中Lω(β)=
ðn
i=1
p^
iδ
iG^
(xi
)ρτ(y~i-x~
Tiβτ).
4 数据模拟
为了验证利用经验似然方法结合辅助信息的部分线性分位数回归方法比传统分位数回归方法更有效ꎬ通过R4.0.2软件来进行模拟研究ꎬ利用Quantreg软件包进行分位数回归估计进而计算均方误差MSE(MeanSquaredError).选择分位数τ为0.5ꎬ误差项选取εi~N(0ꎬ1)ꎬ与生存时间有关的协变量xi服从U(0ꎬ1)ꎬ变量ti服从U(0ꎬ1)ꎬ样本量选取50㊁100和200ꎬ本文选择删失时间C服从参数为η=1/3或η=1/4的指数分布ꎬ未知非参数函数h(t)取cos(2πt)或sin(2πt)ꎬ循环计算500次ꎬ对于右删失数据ꎬ构造辅助信息量为
gi(β)=(1ꎬx~
i)Ty~iδiG^(x~i)-β0-x~Tiβæèçöø
÷.
上式满足当β=β0时ꎬE(gi(β))=0.考虑如下的模拟设置:
生存时间T满足Ti=3+2xi+cos(2πt)+εiꎬi=1ꎬ2ꎬ ꎬnꎬ结果如表1所示ꎻ生存时间T满足Ti=3+2xi+sin(2πt)+εiꎬi=1ꎬ2ꎬ ꎬnꎬ结果如表2所示.
7
3
吉林师范大学学报(自然科学版)第42卷表1㊀估计值的均方误差(h(t)=cos(2πt))
Table1㊀Meansquareerrorofestimation(h(t)=cos(2πt))
h(t)参数η样本量n/个
QRˑ102
β0β1
QR ̄ELˑ102
β0β1
cos(2πt)13503.0997.9112.1035.292
1001.3903.4490.8361.381
2000.6931.5130.4760.5491
4502.1716.2601.6243.746
1000.8932.3880.6650.983
2000.4290.9920.4110.513
表2㊀估计值的均方误差(h(t)=sin(2πt))
Table2㊀Meansquareerrorofestimation(h(t)=sin(2πt))
h(t)参数η样本量n/个
QRˑ102
β0β1
QR ̄ELˑ102
β0β1
sin(2πt)13503.09916.2702.3967.244
1001.3267.7340.7151.488
2000.6653.6180.4820.642
1
4502.08413.6301.6354.665
1000.8875.4040.6911.404
2000.3982.6080.3750.558
从上述模拟结果可以看出ꎬ对应不同的右删失数据ꎬ随着样本量n的增加ꎬ无论传统部分线性分位数回归方法ꎬ还是利用经验似然结合辅助信息的部分线性分位数回归方法的均方误差都随之变小ꎻ针对不同的删失数据和不同的非参数函数h(t)ꎬ带辅助信息的部分线性分位数回归方法与传统分位数回归方法相比ꎬ均方误差更小ꎬ从而说明带辅助信息的部分线性分位数回归方法比传统分位数回归方法更有效ꎬ进一步说明不同删失数据类型并不对估计结果造成影响.
5㊀结语
本文首先建立部分线性分位数回归模型ꎬ将此模型结合到右删失数据中ꎬ并利用Kaplan ̄Meier估计建立右删失数据下的部分线性分位数回归模型ꎬ进一步结合右删失数据及部分线性分位数回
归构造适合经验似然方法的估计方程ꎬ再利用经验似然结合辅助信息产生自适应权值piꎬ利用自适应权值作为部分线性分位数回归的权重ꎬ进一步改进部分线性模型的参数估计ꎬ并通过模拟研究证明带辅助信息的部分线性分位数回归方法比传统分位数回归方法的均方误差更小ꎬ故进一步证明带辅助信息的部分线性分位数回归方法比传统分位数回归方法更有效ꎬ模拟研究的过程中产生不同的删失数据及不同的非参数函数h(t)的情况下ꎬ带辅助信息的部分线性分位数回归方法都比传统分位数回归方法的均方误差更小ꎬ可以说明不同的删失数据类型及不同的非参数函数h(t)并不对估计结果造成影响.该方法可以进一步扩展到R.Koenker[13]中考虑的非线性分位数回归.
83
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论