统计 - 所需样本量


测试的一个关键部分是测试度量的选择,即从大众中选择用于完成探索的单位数量。对于表征最合适的尺寸,没有明确的答案或答案。对于测试的跨度,肯定存在误导性的判断,例如样本应该是人口的 10%,或者样本大小与宇宙的范围有关。然而,正如前面所说,这些只是错误的判断。样本的大小取决于所研究的人群参数的多样性以及专家所要求的评估准确性。

可以从两个角度来决定样本的最佳大小。主观和数学。

  1. 确定样本量的主观方法

  2. 确定样本量的数学方法

确定样本量的主观方法

样本大小的选择受到以下各种因素的影响:

  • 种群的性质- 同质性或异质性的水平影响样本的范围。如果大众在感兴趣的品质方面是同质的,那么即使样本的大小很小也足够了。但如果人群存在异质性,则需要更大的例子来保证足够的代表性。

  • 受访者的性质- 如果受访者可以轻松访问并可用,那么可以从一个小例子中获得所需的数据。尽管如此,如果受访者不合作并且不反应的可能性很高,那么就需要更大的样本。

  • 研究的性质- 可以利用一个实质性的例子来引导一次性研究。如果需要进行一项具有持续性并需要认真完成的考试研究,那么一个小样本就更合适,因为在很长一段时间内监督和保存一个小例子并不困难。

  • 使用的抽样技术- 影响测试范围的一个重要变量是所接收的检查系统。首先,非似然系统需要比似然策略更大的样本。除了可能性检验之外,如果使用简单的不规则检查,则需要比使用分层更大的示例,在分层中,一个小样本就足够了。

  • 制表的复杂性- 在确定样本估计时,专家还应该考虑将发现组合和分解的分类和类别的数量。可以看出,要产生的分类数量越多,示例大小就越大。由于每个类别都应该有足够的讨论,因此需要更大的样本来对最小的类别进行可靠的测量。

  • 资源的可用性- 专家可用的资产和时间会影响测试的范围。考试是一项时间和金钱不断升级的任务,仪器准备、签约和准备现场工作人员、运输费用等活动占用了大量的资产。随后,如果科学家没有足够的时间和可用的支持,他将选择一个较小的例子。

  • 所需的精密度和准确度- 。从我们之前的讨论中可以清楚地看出,如果 SE 较小或示例大小较大,则通过标准错误来衡量的准确性就会很高。

此外,为了获得高精度,需要更大的样本。除了这些主观努力之外,样本大小也可以通过数学方式确定。

确定样本量的数学方法

在确定样本量的数学方法中,首先规定所需的估计精度,然后计算出样本量。精度可以指定为真实平均值的 ${\pm}$ 1,置信度为 99%。这意味着,如果样本平均值为 200,则平均值的真实值将在 199 到 201 之间。此精度级别由术语“c”表示

平均值的样本量确定。

全域平均值的置信区间由下式给出

${\bar x \pm Z\frac{\sigma_p}{\sqrt N}\ 或\ \bar x \pm e}$

其中 -

  • ${\bar x}$ = 样本均值

  • ${e}$ = 可接受的错误

  • ${Z}$ = 给定置信水平下的标准正态变量值

  • ${\sigma_p}$ = 总体标准差

  • ${n}$ = 样本大小

可接受的误差 'e' 即 ${\mu}$ 和 ${\bar x}$ 之间的差异由下式给出

${Z.\frac{\sigma_p}{\sqrt N}}$

因此,样本大小为:

${n = \frac{Z^2{\sigma_p}^2}{e^2}}$

或者

如果样本量相对于总体规模很大,则上述公式将通过有限总体乘数进行修正。

${n = \frac{Z^2.N.{\sigma_p}^2}{(N-1)e^2 + Z^2.{\sigma_p}^2}}$

其中 -

  • ${N}$ = 人口规模

比例的样本量确定

估计比例时确定样本量的方法与估计平均值的方法相同。宇宙比例 ${\hat p}$ 的置信区间由下式给出

${ p \pm Z.\sqrt{\frac{pq}{n}}}$

其中 -

  • ${p}$ = 样本比例

  • ${q = (1 - p)}$

  • ${Z}$ = 样本比例的标准正态变量值

  • ${n}$ = 样本大小

由于 ${ \hat p}$ 是要估计的,因此 p 的值可以通过取 p = 0.5 的值来确定,p = 0.5 是一个可接受的值,给出保守的样本量。另一种选择是通过试点研究或个人判断来估计 p 的值。给定 p 的值,可接受的误差“e”由下式给出

${ e= Z. \sqrt{\frac{pq}{n}} \\[7pt] e^2 = Z^2\frac{pq}{n} \\[7pt] n = \frac{Z^ 2.pq}{e^2}}$

如果人口是有限的,则上述公式将通过有限人口乘数进行修正。

${n = \frac{Z^2.pqN}{e^2(N-1) + Z^2.pq}}$

例子

问题陈述:

一家购物商店有兴趣估计拥有商店特权会员卡的家庭比例。此前的研究表明,59% 的家庭拥有商店信用卡。置信水平为 95%,可容忍误差水平为 05。

  1. 确定进行研究所需的样本量。

  2. 如果已知目标住户数量为 1000 户,样本量是多少?

解决方案:

店铺有以下信息

${ p = .59 \\[7pt] \右箭头 q = (1-p) = (1-.59) =.41 \\[7pt] CL = .95 \\[7pt] 以及\ Z\标准\变量\对于\ CL\ .95\是\ 1.96 \\[7pt] e = \pm .05 }$

样本量可以通过应用以下公式确定:

${n = \frac{Z^2.pq}{e^2}}$
${n = \frac{(1.96)^2.(.59).(.41)}{(.05)^2} \\[7pt] = \frac{.9226}{.0025} \\[ 7 分] = 369 }$

因此,369 个家庭的样本足以进行这项研究。

由于已知人口(即目标家庭)为 1000 人,且上述样本占总人口的很大比例,因此使用包含有限人口乘数的修正公式。

${n = \frac{Z^2.pqN}{e^2(N-1) + Z^2.pq} \\[7pt] = \frac{(1.96)^2.(.59).( .41).(1000)}{(.05)^2 \times 999 + (1.96)^2(.59)(.41)} \\[7pt] = \frac{922.6}{2.497 + .922} \\[7pt] = 270 }$

因此,如果人口是有限的,有 1000 户家庭,则进行研究所需的样本量为 270。

从该图中可以明显看出,如果总体大小已知,则确定的样本大小就会减少。