1.简述概率抽样的特点。
答:概率抽样也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。概率抽样的特点主要有:
(1)抽样时是按一定的概率以随机原则抽取样本。随机原则就是在抽取样本时排除主观上有意识地抽取调查单位,使每个单位都有一定的机会被抽中。需要注意的是,随机不等于随便。随机有严格的科学含义,可以用概率来描述,而随便则带有人为的主观的因素。例如,要在一栋楼内抽取10位居民作为样本,若采用随机原则,就需要事先将居住在该楼的居民按某种顺序编上号,通过一定的随机化程序,如使用随机数字表,抽取出样本,这样可以保证居住在该楼的每位居民都有一定的机会被选中。而如果调查人员站在楼前,将最先走到楼外的10位居民选入样本,这就是随便而不是随机,这种方法不能使居住在该楼内的所有居民都有一定的机会被选中,已经在楼外的人不可能被选中,在调查时段不外出的人也没有机会被选中。随机与随便的本质区别就在于,是否按照给定的入样概率,通过一定的随机化程序抽取样本单元。
(2)每个单位被抽中的概率是已知的,或是可以计算出来的。
(3)当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。换而言之,估计量不仅与样本单位的观测值(又称观察值)有关,也与其入样概率有关。
2.造成统计数据误差的原因有哪些?如何减少和控制统计数据中的误差?
答:统计数据的误差是指通过调查搜集到的数据与研究对象真实结果之间的差异。数据的误差有两类:抽样误差和非抽样误差。
- 抽样误差是由抽样的随机性引起的样本结果与总体真值之间的误差。抽样误差是由抽样的随机性导致的。通过增加样本量可以减小抽样误差,当样本量大到与总体单位相同时,也就是抽样调查变成普查时,抽样误差就减小到零。
- 非抽样误差是指除抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。非抽样误差包括抽样框误差、回答误差、无回答误差、调查员误差、测量误差等。非抽样误差控制的重要方面是调查过程的质量。这包括:调查员的挑选、调查员的培训、督导员的调 查专业水平、对调查过程进行控制的具体措施、对调查结果进行检验评估、对现场调查人员进行奖惩的制度等等。
3.什么是非抽样误差?说明非抽样误差的主要种类。
答:(1)非抽样误差是相对抽样误差而言的,是指除抽样误差之外的,由其他原因引起的样本观察结果与总体真值之间的差异。抽样误差是一种随机性误差,只是存在于概率抽样中;非抽样误差则不同,无论是概率抽样、非概率抽样,或是在全面调查中,都有可能产生非抽样误差。
(2)非抽样误差的主要种类
① 抽样框误差
在概率抽样中需要根据抽样框抽取样本。抽样框是有关总体全部单位的名录,在地域抽样中,抽样框也可以是地图。一个好的抽样框应该是,抽样框中的单位和研究总体中的单位有一一对应的关系。由于抽样框的不完善造成的这些统计推论的错误,我们把这种误差称为抽样框误差。
② 回答误差
回答误差是指被调查者在接受调查时给出的回答与真实情况不符。导致回答误差的原因有多种,主要有理解误差、记忆误差和有意识误差。
a.理解误差 不同的被调查者对调查问题的理解不同,每个人都按自己的理解回答,大家的标准不一致,由此造成理解误差。 b.记忆误差 有时,调查的问题是关于一段时期内的现象或事实,需要被调查者回忆。需要回忆的时间间隔越久,回忆的数据可能就越不准确。所以,缩短调查所涉及的时间间隔可以减少记忆误差。但是,有些事件是按一定周期发生的。 c.有意识误差 当调查的问题比较敏感,被调查者不愿意回答,迫于各种原因又必须回答时,可能就会提供一个不真实的数字。产生有意识误差的动因大致有两种:一种是调查问题涉及个人隐私,被调查者不愿意告知,所以造假;另一种是受利益驱动,进行数字造假。有意识误差比记忆误差的危害要大。因为记忆误差具有随机性,有些人可能说高了,有些人可能说低了,高低相抵,调查结果还是具有趋中的倾向;有意识误差则不同,它往往偏向某一个方向,是一种系统性偏差。
③ 无回答误差
无回答误差是指被调查者拒绝接受调查,调查人员得到的是一份空白的答卷。无回答也包括那些调查进行时被访者不在家的情况。电话调查中,拨通后没有人接;邮寄问卷调查中,地址写错,被调查者搬家,或被调查者虽然收到问卷,却把问卷遗忘或丢失,这些都可以视为调查 中的无回答。
④ 调查员误差
这是指由于调查员的原因而产生的调查误差。例如,调查员粗心,在记录调查结果时出现错误。调查员误差还产生于调查中的诱导,而调查员本人可能并没有意识到。例如,在调查过程中调查员有意无意地流露出对调查选项的看法或倾向,调查员的表情变化、语气变化、语速变 化都可能对被调查者产生某种影响。
⑤ 测量误差
如果调查与测量工具有关,则很有可能产生测量误差。例如,对小学生的视力状况进行抽样调查,而视力的测定与现场的灯光、测试距离都有密切关系。调查在不同地点进行,如果各测试点的灯光、测试距离有所差异,就会给调查结果带来测量误差。调查有时也采用观察、记数 的方式进行。
4.请给出你所知道的概率抽样的组织方式。
答:概率抽样也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。调查的实践中经常采用的概率抽样方式有以下几种:
(1)简单随机抽样。即从包括N个总体单位的抽样框中随机地、一个一个地抽取n个单位作为样本,每个单位入样的概率是相等的。简单随机抽样的特点是简单、直观。在抽样框完整时,可以直接从中抽取样本,由于每个样本单位被抽中的概率相同,用样本统计量对目标量进行估计及计算估计量误差都比较方便。简单随机抽样在实际应用中的局限性:
① 它要求将包含所有总体单位的名单作为抽样框,当N很大时,构造抽样框比较困难;
② 抽出的单位很分散,给实施调查增加了困难;
③ 没有利用其他辅助信息以提高估计的效率。所以,在规模较大的调查中,很少直接采用简单随机抽样,一般是把这种方法和其他抽样方法结合起来使用。
(2)分层抽样。将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,将各层的样本结合起来,对总体的目标量进行估计。分层抽样方法的优点:
① 保证了样本中包含有各种特征的抽样单位,样本的结构与总体的结构比较相近,从而可以有效地提高估计的精度;
② 在一定条件下为组织实施调查提供了方便(当层是按行业或行政区划进行划分时);
③ 既可以对总体参数进行估计,也可以对各层的目标量进行估计,等等。这些优点使分层抽样在实践中得到了广泛的应用。
(3)整群抽样。将总体中若干个单位合并为组,这样的组称为群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查,这样的抽样方法称为整群抽样。与简单随机抽样相比,整群抽样的特点在于:
① 抽取样本时只需要中选群的抽样框,而不必要求包括所有单位的抽样框,大大简化了编制抽样框的工作量。
② 调查的地点相对集中,节省了调查费用,方便了调查的实施。整群抽样的主要弱点是估计的精度较差,因为同一群内的单位或多或少有些相似,在样本量相同的条件下,整群抽样的抽样误差通常比较大。一般说来,要得到与简单随机抽样相同的精度,采用整群抽样需要增加基本调查单位。
(4)系统抽样。是将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。系统抽样的主要优点是操作简便,如果有辅助信息,对总体内的单位进行有组织的排列,可以有效地提高估计的精度。缺点是对估计量方差的估计比较困难。系统抽样方法在调查实践中有广泛的应用。
(5)多阶段抽样。采用类似整群抽样的方法,首先抽取群,但并不是调查群内的所有单位,而是再进一步抽样,从选中的群中抽取出若干个单位进行调查;因为取得这些接受调查的单位需要两个步骤,所以将这种抽样方式称为二阶段抽样;这里,群是初级抽样单位,第二阶段抽取的是最终抽样单位。将这种方法推广,使抽样的段数增多,就称为多阶段抽样。多阶段抽样具有整群抽样的优点,保证了样本相对集中,从而节约了调查费用;不需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广的范围内展开。在较大规模的抽样调查中,多阶段抽样是经常采用的方法。
5.统计数据质量的基本标准是什么?
答:(1)准确:用数字语言来反映客观实际;
(2)快速:统计信息服务必须具有时效性和紧迫性;
(3)完整:调查单位没有遗漏,调查项目没有缺陷,资料数据齐全;
(4)精练:统计信息具有针对性、有效性、精确性。