Excel回归结果的解读
Excel回归结果的解读
利用Excel的数据分析进行回归,可以得到一系列的统计参量。下面以连续10年积雪深度和灌溉面积序列(图1)为例给予详细的说明。
图1 连续10年的最大积雪深度与灌溉面积(1971-1980)回归结果摘要(Summary Output)如下(图2):
图2 利用数据分析工具得到的回归结果
第一部分:回归统计表
打印机无法连接
这一部分给出了相关系数、测定系数、校正测定系数、标准误差和样本数目如下(表1):
表1 回归统计表
逐行说明如下:
Multiple 对应的数据是相关系数(correlation coefficient),即R=。
R Square 对应的数值为测定系数(determination coefficient),或称拟合优度(goodness of fit),它是相关系数的平方,即有R 2==。
Adjusted 对应的是校正测定系数(adjusted determination coefficient),计算公式为
1
)1)(1(12-----=m n R n R a  式中n 为样本数,m 为变量数,R 2为测定系数。对于本例,n =10,m =1,R 2=,代入上式得
976312.01
讲话技巧110)978944.01)(110(1=-----=a R  标准误差(standard error )对应的即所谓标准误差,计算公式为 SSe 11--=
m n s  这里SSe 为剩余平方和,可以从下面的方差分析表中读出,即有SSe=,代入上式可得
418924.110676.16*1
1101=--=s  最后一行的观测值对应的是样本数目,即有n =10。
第二部分,方差分析表
方差分析部分包括自由度、误差平方和、均方差、F 值、P 值等(表2)。
表2 方差分析表(ANOVA )
逐列、分行说明如下:
第一列df 对应的是自由度(degree of freedom ),第一行是回归自由度dfr ,等于变量数目,即dfr=m ;第二行为残差自由度dfe ,等于样本数目减去变量数目再减1,即有dfe=n -m -1;第三行为总自由度dft ,等于样本数目减1,即有dft=n -1。对于本例,m =1,n =10,因此,dfr=1,dfe=n -m -1=8,dft=n -1=9。
第二列SS 对应的是误差平方和,或称变差。第一行为回归平方和或称回归变差SSr ,
即有
8542.748)ˆ(SSr 12=-=∑=n
i i i y y
BY2恋情
它表征的是因变量的预测值对其平均值的总偏差。
第二行为剩余平方和(也称残差平方和)或称剩余变差SSe ,即有
10676.16)ˆ(SSe 12=-=∑=n
i i i y
y  它表征的是因变量对其预测值的总偏差,这个数值越大,意味着拟合的效果越差。上述的y 的标准误差即由SSe 给出。
第三行为总平方和或称总变差SSt ,即有
961.764)(SSr 12=-=∑=n
i i i y y
它表示的是因变量对其平均值的总偏差。容易验证+=,即有
SSt SSe SSr =+
而测定系数就是回归平方和在总平方和中所占的比重,即有
978944.0961
.7648542.748SSt SSr 2===R  显然这个数值越大,拟合的效果也就越好。
第四列MS 对应的是均方差,它是误差平方和除以相应的自由度得到的商。第一行为回归均方差MSr ,即有
8542.7481
8542.748dfr SSr MSr ===
第二行为剩余均方差MSe ,即有 013345.2810676.16dfe SSe MSe ===
显然这个数值越小,拟合的效果也就越好。
第四列对应的是F 值,用于线性关系的判定。对于一元线性回归,F 值的计算公式为
2222
1dfe )1(11R
R R m n R F -=---= 式中R 2=,dfe=10-1-1=8,因此
9453.371978944
.01978944.0*8=-=F  第五列Significance F 对应的是在显著性水平下的F α临界值,其实等于P 值,即弃真概率。所谓“弃真概率”即模型为假的概率,显然1-P 便是模型为真的概率。可见,P 值越小越好。对于本例,P =<,故置信度达到%以上。
第三部分,回归参数表
回归参数表包括回归模型的截距、斜率及其有关的检验参数(表3)。
表3 回归参数表
第一列Coefficients 对应的模型的回归系数,包括截距a =和斜率b =,由此可以建立回归模型
i i x y
QQ备注名称设计8129.13564.2ˆ+= 或
i i i x y ε++=8129.13564.2
第二列为回归系数的标准误差(用a s ˆ或b s ˆ表示),误差值越小,表明参数的精确度越高。
这个参数较少使用,只是在一些特别的场合出现。例如L. Benguigui 等人在When and where is a city fractal ?一文中将斜率对应的标准误差值作为分形演化的标准,建议采用作为分维判定的统计指标(参见EPB2000)。
不常使用标准误差的原因在于:其统计信息已经包含在后述的t 检验中。
第三列t Stat 对应的是统计量t 值,用于对模型参数的检验,需要查表才能决定。t 值是回归系数与其标准误差的比值,即有
a a s
国际汉语教师资格证考试a t ˆ=
,b b s b t ˆ= 根据表3中的数据容易算出: 289167.1827876.1356438.2==a t ,28588.19094002
.0812921.1==b t  对于一元线性回归,t 值可用相关系数或测定系数计算,公式如下
112---=m n R
R
t
将R=、n =10、m =1代入上式得到
28588.191110989416
.01989416
.02=---=t
对于一元线性回归,F 值与t 值都与相关系数R 等价,因此,相关系数检验就已包含了这部分信息。但是,对于多元线性回归,t 检验就不可缺省了。
益阳美食第四列P value 对应的是参数的P 值(双侧)。当P<;时,可以认为模型在α=的水平上显著,或者置信度达到95%;当P <;时,可以认为模型在α=的水平上显著,或者置信度达到99%;当P <;时,可以认为模型在α=的水平上显著,或者置信度达到%。对于本例,P=<,故可认为在α=的水平上显著,或者置信度达到%。P 值检验与t 值检验是等价的,但P 值不用查表,显然要方便得多。
最后几列给出的回归系数以95%为置信区间的上限和下限。可以看出,在α=的显著水平上,截距的变化上限和下限为和,即有
57153.685865.1≤≤-a
斜率的变化极限则为和,即有
02969.259615.1≤≤b
第四部分,残差输出结果
这一部分为选择输出内容,如果在“回归”分析选项框中没有选中有关内容,则输出结果不会给出这部分结果。
残差输出中包括观测值序号(第一列,用i 表示),因变量的预测值(第二列,用i y
ˆ表示),残差(residuals ,第三列,用e i 表示)以及标准残差(表4)。
表4 残差输出结果
预测值是用回归模型
i i x y
8129.13564.2ˆ+= 计算的结果,式中x i 即原始数据的中的自变量。从图1可见,x 1=,代入上式,得
118129.13564.2ˆx y
+=91284.292.15*8129.13564.2=+= 其余依此类推。
残差e i 的计算公式为
i i i y
y e ˆ-= 从图1可见,y 1=,代入上式,得到
31284.191284.296.28ˆ111-=-=-=y
y e  其余依此类推。
标准残差即残差的数据标准化结果,借助均值命令average 和标准差命令stdev 容易验证,残差的算
术平均值为0,标准差为。利用求平均值命令standardize(残差的单元格范围,均值,标准差)立即算出表4中的结果。当然,也可以利用数据标准化公式
)var(*i i i z z
z z -=i i z
z σ-=
逐一计算。将残差平方再求和,便得到残差平方和即剩余平方和,即有

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。