Table of Contents
1 標本誤差とは https://www.intage.co.jp/glossary/041/
- 標本値と母集団値との差がどの範囲の大きさで生じるかは、確率論に基づい て一定の式で計算することができます。
- 標本誤差は抽出数を多くするほど小さくなり、また母集団内での個別データ のバラツキが小さいほど小さくなります。
1.1 標本誤差はデータ利用者にとっての保証
- 調査結果の数字はふつう平均値や比率(パーセント)で表されます。
したがって、標本値を調査から得られた平均値や比率とすると、それらが母 集団値とどれだけ食い違っているかは
「標本誤差」=「標本値」-「母集団値」
として定義されます。
- しかし母集団値は未知であり、標本値も抽出される標本によって左右される ため、標本誤差の大きさそのものを示す式とはなりません。
- 個々の標本誤差はわかりませんが、その範囲は「標準誤差」という統計値を用 いて確率的に記述できます。
- それがデータの利用者にとって調査結果の信頼性の保証となり、平均値なり 比率なりを安心して使える限界を知らせてくれることになるのです。
1.2 平均値の標準誤差
単純な無作為抽出法では、平均値mの標準誤差を次式で計算できます。(σm は平均値の標準誤差、nは調査対象数、σは母集団の個別データの標準偏差 (調査データから推定))
\[ \sigma_m = \frac {\sigma} {\sqrt{n}} \]
- この値を用いて「標本平均の前後に標準誤差の1.96倍の幅をとると、母集団 平均がその中に入る確率は95%である」と言い切ることができます。
- この範囲のことを 信頼区間 と呼び、その中に入る確率を 信頼係数 と 呼びます。
- また、標準誤差の2.58倍の幅をとれば、信頼区間を99%にすることができま す。
1.3 比率の標準誤差
比率 p の標準誤差は次式で計算できます。(母集団における比率Pは不明 なので標本値pで代用します(nがある程度大きいとき))
\[ \sigma_p = \sqrt{ \frac {p (1-p)} { n } } \]
- もし調査対象者数が400人でその中の20%がある製品の使用者であったと すると、使用率の標準誤差は2%と計算することができ、母集団における 使用率が区間16~24%内にあることが確率95%で保証されます。