抽样框——精选推荐
207
抽样框和样本抽取过程说明
一、抽样单位
本方案采用分层的四阶段不等概率抽样,各阶段的抽样单位为:
第一阶段:以区(地级市、省会城市和直辖市的各大城区和郊区)、县(包括县级市)为初级抽样单位。
第二阶段:以街道、乡镇为二级抽样单位。
第三阶段:以居民委员会、村民委员会为三级抽样单位。第四阶段:以家庭住户并在每户中确定1人为最终单位。
二、构建抽样框
根据行政区划资料,全国(含22个省、4个自治区、4个直辖市;不含西藏自治区、港澳台)共有2801个区县单位,这些区县单位作为PSU (初级抽样单元)构成调查总体,具体划分为5个抽样框。
抽样框1:三大直辖市市辖区
具体包括北京、天津、上海三个直辖市的共44个市辖区,需要说明的是,这一部分未包括直辖市重庆,原因如下:
(1)从设立直辖市的时间来看,1997年全国行政区划正式设立重庆直辖市,而1949年
建国之初即存在京津沪三大直辖市的行政区划。
(2)从各省、直辖市人类发展指数(HDI)的排名来看,重庆与京津沪三大直辖市相比差距
较大(见表一);
(3)从所处经济地理区域上来看,重庆位于内陆地区,而京津沪三大直辖市均位于沿海
直辖市发达地区;
(4)从经济发展水平来看,重庆的人均GDP 与京津沪三大直辖市相比差距较大(见表
一);
(5)从城乡人口对比来看,重庆的农业人口与非农业人口的比例与京津沪三大直辖市相
比差距较大(见表一);
表一重庆与京津沪三大直辖市部分指标对比
指标北京天津上海重庆
人类发展指数排名
2 3    1 22 人均GDP (万元)
2.26 1.79
3.48 0.52 非农业人口百分比
60% 56% 67% 23% 总之,从人文、经济、城乡人口对比、地理、历史等多方面相比较,重庆与京津沪三大直辖市的同质性并不明显;若简单地按行政区划的标准将重庆划分至直辖市这一抽样框,若简单地按行政区划的标准将重庆划分至直辖市这一抽样框,将将
对结果产生一定的影响。
对结果产生一定的影响。
抽样框2:省会城市市辖区
具体包括全国26个省会城市和重庆市的共175个市辖区。依照各城市的经济地理区域分为三层。
分为三层。
东部:沈阳市、济南市、杭州市、南京市、福州市、广州市
中部:哈尔滨市、长春市、石家庄市、郑州市、太原市、合肥市、南昌市、武汉市、长沙市、海口市、南宁市
沙市、海口市、南宁市
西部:呼和浩特市、乌鲁木齐市、银川市、兰州市、西宁市、昆明市、贵阳市、西安市、成都市、重庆市
成都市、重庆市
抽样框3:东部地区区县
具体包括京津沪三大直辖市和东部6省的所有区县,除去直辖市和6个省会城市市辖区个区县。即:
部分;共611个区县。即:
北京(除市辖区)、天津(除市辖区)、上海(除市辖区)、辽宁省(除沈阳市市辖区)、山东省(除济南市市辖区)、浙江省(除杭州市市辖区)、江苏省(除南京市市辖区)、福建省(除福州市市辖区)、广东省(除广州市市辖区)。
抽样框4:中部地区区县
具体包括中部11省和自治区的所有区县,除去11个省会城市市辖区部分;共1136个区县。即:
区县。即:
黑龙江(除哈尔滨市市辖区)、吉林省(除长春市市辖区)、河北省(除石家庄市市辖区)、河南省(除郑州市市辖区)、山西省(除太原市市辖区)、安徽省(除合肥市市辖区)、江西
(除
海南省(除省(除南昌市市辖区)、湖北省
湖北省(除武汉市市辖区)
(除武汉市市辖区)、湖南省(除长沙市市辖区)、海南省、广西壮族自治区(除南宁市市辖区)
海口市市辖区)、广西壮族自治区(除南宁市市辖区)
抽样框5:西部地区区县
具体包括西部10省和自治区的所有区县,除去10个省会城市市辖区部分;共835个区县。即:
县。即:
内蒙古自治区(除呼和浩特市市辖区)、新疆维吾尔自治区(除乌鲁木齐市市辖区)、宁夏回族自治区(除银川市市辖区)、甘肃省(除兰州市市辖区)、青海省(除西宁市市辖区)、云南省(除昆明市市辖区)、贵州省(除贵阳市市辖区)、陕西省(除西安市市辖区)、四川、重庆(除重庆市市辖区)
省(除成都市市辖区)、重庆(除重庆市市辖区)
三、总样本量
208
209
由于调查的结果主要是估计各种比例数据以及比例数据之间的比较,所以在调查样本量的确定上是以估计简单随机抽样的总体比例P 时的样本量为基础。在95%的置信度下按抽样绝对误差不超过3%的要求进行计算,需要抽取样本量:的要求进行计算,需要抽取样本量:
1067)
1(2
2
0=−=
d
p p u n α
这里d 为抽样绝对误差取0.03,αu 在置信度为0.95时为1.96,)1(p p −最大取0.25。由于采用多阶段的复杂抽样,设计效应deff 一般会在2和2.5之间,我们把deff 定为2,这样需要的样本量就为2000个。个。
综合考虑精确度、费用以及调查实施的可行性等因素,以及以往若干全国社会调查的经验;再加上考虑到在调查实施中通常会存在一部分户内不到、再加上考虑到在调查实施中通常会存在一部分户内不到、或没有合格调查对象、或没有合格调查对象、或没有合格调查对象、以以及各种原因造成的无回答等情况,及各种原因造成的无回答等情况,根据对回答率的估计,根据对回答率的估计,根据对回答率的估计,以及总体划分为五个抽样框,以及总体划分为五个抽样框,以及总体划分为五个抽样框,我们我们把样本量确定为10000个。这10000个样本不仅能满足对总体的估计,而且也能满足对抽样框各自总体的估计,所以是比较合适的样本量。框各自总体的估计,所以是比较合适的样本量。
四、样本分配
总样本数10000,采用四阶段抽样方案,在每个抽选出的初级抽样单元(区/县)中抽出4个二级抽样单元(街道/乡镇),在每个抽选出的二级单元中抽出2个三级抽样单元(村委会/居委会),最后在每个抽选出的三级抽样单元中抽出10个最终抽样单元个最终抽样单元
在抽样框1(三大直辖市市辖区)中共抽出15个PSU ,每一个直辖市对应抽出5个PSU ; 在抽样框2(省会城市市辖区)中共抽出16个PSU ,并以东中西三层的省会城市市辖区人口按比例分配,其中东部省会城市抽出5个PSU ,中部省会城市抽出6个PSU ,西部省会城市抽出5个PSU ;
在抽样框3(东部地区区县)、抽样框4(中部地区区县)和抽样框5(西部地区区县)中共抽出94个P
SU ,并以东部、中部、西部各部分的总人口剔除其中包括的直辖市和省会城市的市辖区人口后的剩余人口按比例分配,其中抽样框3中抽出30个PSU ,抽样框4中抽出42个PSU ,抽样框5中抽出22个PSU 。
对应于四阶段抽样方案,样本在各抽样框中的具体分配数目如下表所示:
表二 样本在各抽样框中的分配
抽样框 初级单元 (区、县) 二级单元 (街道、乡镇)
三级单元 (居委会、村委会) 最终单元 抽样框1 15 60
120
1200
北京    5 5×4=20 20×2=40 40×10=400 天津    5 5×4=20 20×2=40 40×10=400 上海    5 5×4=20 20×2=40 40×10=400 抽样框2 16 64
128
1280
东部
5 5×4=20
20×2=40
40×10=400
210
中部    6 6×4=24 24×2=48 48×10=480 西部    5 5×4=20 20×2=40 40×10=400 抽样框3 30 30×4=120 120×2=240 240×10=2320 抽样框4 42 42×4=168 168×2=336 336×10=3360 抽样框5
22 22×4=88
88×2=176
176×10=1760
合计 125 500 1000 10000
二、抽样步骤
1、初级抽样单元(区县)的选取:(区县)的选取:
(1) 抽样框1中PSU 的抽取的抽取
每个直辖市以简单随机抽样的方式抽出5个PSU ,共计15个。个。  (2) 抽样框2中PSU 的抽取
将抽样框2(省会城市市辖区)分为东部、中部、西部三层,对照表二中各层的样本分配数,分别将各层内的省会城市市辖区按照所属省会城市的教育水平分别将各层内的省会城市市辖区按照所属省会城市的教育水平(即中学以上的人口数(即中学以上的人口数百分比)排序,并以各市辖区人口数作为辅助信息,采用PPS(不等概率抽样)系统抽样,抽出16个PSU。
(3) 抽样框3、4、5中PSU 的抽取
考虑本次调查的具体内容,在10000个样本中,欲实现城市样本数与农村样本数的对比约为6000:4000。在抽样框1和抽样框2中,每个PSU 都抽出4个街道作为二级抽样单元,对应的最终抽样单元均为城市样本;为实现城乡样本比例的平衡,在抽样框3、4、5中,每个PSU 对应下表(表三)确定4个二级抽样单元在街道和乡镇中的分配。
表三 抽样框3、4、5中二级单位分配标准
二级抽样单位 层别 非农人口百分比
街道 乡镇 1
43.37%及以上
4 0 2 [22.53%  ,  43.37%)    3    1 3 [14.75%  ,  22.53%)    2    2 4
[11.34% ,  14.75%)
1    3
5 11.34%以下 0    4
在抽样框3(东部地区区县)中,将各区县按表三所述标准分为5层;考虑到本次调查的具体内容,的具体内容,在每一层中各区县按教育水平在每一层中各区县按教育水平在每一层中各区县按教育水平(即各区县中,(即各区县中,(即各区县中,教育程度为中学以上的人口数百教育程度为中学以上的人口数百分比)排序,并以各区县人口数作为辅助信息,采用PPS 系统抽样,抽出30个PSU。抽样框4和抽样框5中的PSU 抽取过程与之相同。这种方式的目的在于,保证在抽选出的PSU 中农业人口与非农业人口比例的分布、以及各PSU 教育水平的分布与总体分布大体相符。具体控制目标是在抽样
框3、4、5中的376个二级抽样单元中,街道与乡镇的比例大致为176:200,从而实现抽样框3、4、5中抽取的最终单元中城镇样本与农村样本的比例大致为3520:4000(即[176×2×10]:[200×2×10])。
2、 二级抽样单元(街道或乡镇)的选取:
2、
根据表三,我们可以计算出各初级抽样单元中二级抽样单元(街道或者乡镇)的分配表.
基于该分配表,根据2000年人口普查分区县、街道/乡镇、居委会和村委会的人口数,我们按照如下步骤选取二级抽样单元:
我们按照如下步骤选取二级抽样单元:
3.a城镇样本街道级单位的抽取
(1)在选取的每一个区县级单位内,计算所有街道级单位居委会20-69岁人口总数,
同时给每一含有居委会人口的街道级单位一个随机数字;
(2)将各街道级单位按照所给出的随机数字从最低到最高排序;
(3)按照PPS法选取K个街道(K表四中该初级抽样单元所要求的二级抽样单元
(街道)
表四中该初级抽样单元所要求的二级抽样单元(街道)数目,如果某些街道居委会人口过大,该街道可能被抽中2次或者以上),具体为:
1)列出该区县中含有居委会人口的街道/乡镇名称,以及20-69岁居委会人口数;
岁居委会人口数;
2)累加各街道/乡镇的居委会人口数生成一列数组,累加到该区县内的总居委会人
口。例如,假设该区县有10个街道/乡镇单位,各居委会人口数分别为50,150,
90,70,180,110,40,60,120,和130,总人口为1000。我们将人口数列表
如下:
如下:
街道1:1-50
街道2:51-200
街道3:201-290
街道4:291-360
街道5:361-540
街道6:541-650
街道7:651-690
街道8:691-750
街道9:751-870
街道10:871-1000
3)假设表四中该初级抽样单元所要求的二级抽样单元数目为2个街道,二级抽样单
元的抽样方法为:(1)在1和N/2之间选取一个随机数字(在我们的例子中为1000)
并且选取包含所选取的随机数字的街道,(2)加上N/2选取第2个街道。例如,
假设本例子中第一个随机数字是222,因为222对应的为街道3,该街道被选取了。
然后选取第2个街道,对应222+500=722的那个街道(街道8)。
3.b 农村样本乡镇级单位的抽取
1)在选取的每一个区县级单位内,计算所有乡镇级单位村委会20-69岁人口总数,
同时给每一含有村委会人口的乡镇级单位一个随机数字;
2)将各乡镇级单位按照所给出的随机数字从最低到最高排序;
3)按照PPS法选取K个乡镇(K为表四中该初级抽样单元所要求的二级抽样单元(乡
211

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。