確率と統計 10. 区間推定
10章での想定
- \( X \): 母集団 \( \sim N(\mu, \sigma^2) \) とする
- \( X_{i=1:n} \): \( X \) からの無作為標本
- \( \mu \) の区間推定
平均パラメータの区間推定の問題
「薬の投与により,血中のある物質の濃度が上昇し,健康状態が改善される」 という。
20人の患者への投与により,増加の程度 (%) の標本値が得られた:
## ## 正規分布からの標本 ## ### サイズ 20, 平均=29.2, 分散=1 ### (sample <- rnorm(20, mean=29.2, sd=1))
[1] 27.94484 29.83686 27.79953 28.04755 28.75391 29.71464 28.29472 26.32046 [9] 30.47457 29.69439 28.47219 29.96765 29.69294 29.05225 30.87160 30.46751 [17] 28.09111 29.15670 28.50214 27.93843
10.1 母平均の区間推定 (分散既知)
\( \overline{X_{(n)}}\) の標準化
\(Z_n = \frac{\overline{X_{(n)}}-\mu}{\sqrt{\sigma^2/n}} \sim N(0,1) \)
危険度・信頼度と信頼区間
\( P(\theta_{l} \leq \theta \leq \theta_{h}) \) という主張
- 危険度
\( \alpha \): 0.05, 0.01 が用いられることが多い
\( P( \theta \leq \theta_{l} || \theta_{h} \leq \theta) = \alpha \) となる確率を危険度という
メッタに起らない事象である度合い。
- 信頼度
\(1-\alpha\): 0.95, 0.99 が用いられることが多い
\( P(\theta_{l} \leq \theta \leq \theta_{h}) = 1 - \alpha \) とな る区間 \( [\theta_{l}, \theta_{h}] \) を, 信頼区間 と呼ぶ。
標本の標本平均が入る区間を求める
危険度・信頼度に対する \( z^* \) を求める
\( z^* \) は標準正規分布で危険度・信頼度に対応する座標。
\( P(|Z_n|) \leq z^{*} ) = 1-\alpha \) となる \( z^{*} \)
危険度0.05, 信頼度0.95となる \(z^*\)
## ## 危険度・信頼度に対する z^* を求める ## (zs <- qnorm(0.975)) ## 下側97.5%, 上側2.5% 点 pnorm(zs) ## [-\infty, zs]となる確率 (zs <- qnorm(0.995)) ## 下側99.5%, 上側0.5% 点 pnorm(zs) ## [-\infty, zs]となる確率
[1] 1.959964 [1] 0.975 [1] 2.575829 [1] 0.995
信頼度 \( 1-\alpha\) の信頼区間は,
\( \left[ \overline{X_{(n)}}-z^{*} \sqrt{\sigma^2/n}, \,\,\, \overline{X_{(n)}} + z^{*} \sqrt{\sigma^2/n} \right]\)
信頼度 0.95/0.99 の信頼区間は,
\( z^* \) に 1.96 を代入した:
\( \left[ \overline{X_{(n)}} - 1.96 \sqrt{\sigma^2/n}, \,\,\, \overline{X_{(n)}} + 1.96 \sqrt{\sigma^2/n} \right]\)
\( z^* \) に 2.58 を代入した:
\( \left[ \overline{X_{(n)}} - 2.58 \sqrt{\sigma^2/n}, \,\,\, \overline{X_{(n)}} + 2.58 \sqrt{\sigma^2/n} \right]\)
\( \mu \) の信頼区間 (を求める公式) を求める
\( 1-\alpha = P (|Z_n| \leq z^{*}) \)
\( = P( \frac{|\overline{X_{(n)}}-\mu|}{\sqrt{\sigma^2/n}} \leq z^{*}) \)
\( = P( |\overline{X_{(n)}}-\mu| \leq z^{*} \sqrt{\sigma^2/n}) \)
\( = P ( \overline{X_{(n)}}-z^{*} \sqrt{\sigma^2/n} \leq \mu \leq \overline{X_{(n)}} + z^{*} \sqrt{\sigma^2/n}) \)
平均パラメータの区間推定の問題 (分散既知)
「薬の投与により,血中のある物質の濃度が上昇し,健康状態が改善され る」という。
20人の患者への投与により,増加の程度 (%) の標本値が得られた:
標本生成
母平均 29.2, 母分散 1 の正規分布からの20個のデータからなる標本を作 る:
(sample <- rnorm(20, mean=29.2, sd=1))
[1] 29.31947 30.47684 29.67857 29.52015 27.38703 30.23326 30.68479 28.25724 [9] 28.58880 29.20905 28.86141 29.37965 28.40622 30.30516 29.04846 30.06109 [17] 27.49247 29.89291 30.40207 28.31730
標準正規分布で信頼度(1-α)の信頼区間 (上記の説明通り)求める
## ## 標準正規分布での信頼度(1-alpha)の信頼区間 z_interval <- function (alpha) { c(qnorm(1-alpha/2), qnorm(alpha/2)) } ## 母平均の区間推定,分散既知 ### alpha : 危険度, (1-alpha): 信頼度 ### sample : 標本 ### sigma2 : 母分散 est_conf_interval <- function (alpha, sample, sigma2) { xbar = mean(sample) n = length(sample) zs <- z_interval(0.05) sigma <- sqrt(sigma2) c(xbar - sigma*zs[1]/sqrt(n), xbar + sigma*zs[1]/sqrt(n)) } var(sample) z_interval(0.05) est_conf_interval(0.05, sample, 1)
[1] 0.7330411 [1] 1.959964 -1.959964 [1] 28.94026 29.81679
\( N\left(\overline{X}, \frac{\sigma^2}{n} \right) \) で信頼度(1-α)の信頼区間を求める
Rを用いれば,N(標本平均,sigma^2) の分布上での上下限座標を求めるのは簡 単なので,標準化を行なわず,標本平均の正規分布上で直接計算でき:
## N(標本平均,sigma^2) の分布上で求める ## 母平均の区間推定,分散既知 ### alpha : 危険度, (1-alpha): 信頼度 ### sample : 標本 ### sigma2 : 母分散 est_conf_interval_2 <- function(alpha, sample, sigma2) { xbar = mean(sample) n = length(sample) zs_h = qnorm(1-alpha/2, mean=xbar, sd=sqrt(sigma2/n)) zs_l = qnorm(alpha/2, mean=xbar, sd=sqrt(sigma2/n)) c(zs_l, zs_h) } est_conf_interval_2(0.05, sample, 1)
[1] 28.81210 29.68862
10.2 母平均の区間推定 (分散未知)
分散未知の場合は,スチューデント化を用いる。
標本平均 \( \overline{X_{(n)}}\) の従う分布は, 自由度 \( (n-1) \) の t-分布になる。
\( \sigma^2 \) の代わりに標本不偏分散 \( S^2 \) を用いる。
それ以外は,分散既知の場合と同じになる。
\( \overline{X_{(n)}}\) のスチューデント化
\(T_n = \frac{\overline{X_{(n)}}-\mu}{\sqrt{S^2/n}} \sim t_{n-1} \)
危険度・信頼度と信頼区間
分散既知の場合と同じ
標本の標本平均が入る区間を求める
危険度・信頼度に対する \( t^* \) を求める
\( P(|T_n|) \leq t^{*}_{n-1}) = 1-\alpha \) となる \( t^{*}_{n-1} \)
危険度0.05, 信頼度0.95となる \(t^*_{n-1}\)
下記のRによる計算では,具体的は自由度の値が必要となる。
degree_of_free <- length(sample)-1 (tns <- qt(0.975,df=degree_of_free)) ## 下側97.5%, 上側2.5% 点 pt(tns,degree_of_free) ## [-\infty, zs]となる確率 (tns <- qt(0.995, df=degree_of_free)) ## 下側99.5%, 上側0.5% 点 pt(tns, df=degree_of_free) ## [-\infty, zs]となる確率
[1] 2.093024 [1] 0.975 [1] 2.860935 [1] 0.995
信頼度 0.95/0.99 の信頼区間は,
\( t^* \) に 2.09 を代入した:
\( \left[ \overline{X_{(n)}} - 2.09 \sqrt{S^2/n}, \,\,\, \overline{X_{(n)}} + 2.09 \sqrt{\S^2/n} \right]\)
\( t^* \) に 2.86 を代入した:
\( \left[ \overline{X_{(n)}} - 2.86 \sqrt{S^2/n}, \,\,\, \overline{X_{(n)}} + 2.86 \sqrt{S^2/n} \right]\)
\( \mu \) の信頼区間 (を求める公式) を求める
\( 1-\alpha = P (|T_n| \leq t^{*}_{n-1}) \)
\( = P( \frac{|\overline{X_{(n)}}-\mu|}{\sqrt{S^2/n}} \leq t^{*}_{n-1}) \)
\( = P( |\overline{X_{(n)}}-\mu| \leq t^{*}_{n-1} \sqrt{S^2/n}) \)
\( = P \left( \overline{X_{(n)}}-t^{*}_{n-1} \sqrt{S^2/n} \leq \mu \leq \overline{X_{(n)}} + t^{*}_{n-1} \sqrt{S^2/n} \right) \)
平均パラメータの区間推定の問題 (分散未知)
「薬の投与により,血中のあるある物質の濃度が上昇し,健康状態が改善され る」という。
20人の患者への投与により,増加の程度 (%) の標本値が得られた:
tn-1分布で信頼度(1-alpha)の信頼区間 (上記の説明通り)求める
## ## t-分布での信頼度(1-alpha)の信頼区間 t_interval <- function (alpha, sample) { c(qt(1-alpha/2,length(sample)-1), qt(alpha/2, length(sample)-1)) } ## 母平均の区間推定,分散未知 ### alpha : 危険度, (1-alpha): 信頼度 ### sample : 標本 est_t_conf_interval <- function (alpha, sample) { xbar = mean(sample) s2 = var(sample) n = length(sample) ts <- t_interval(0.05, sample) sigma <- sqrt(s2) c(xbar - sigma*ts[1]/sqrt(n), xbar + sigma*ts[1]/sqrt(n)) } mean(sample) var(sample) t_interval(0.05, sample) est_t_conf_interval(0.05, sample)
[1] 28.9547 [1] 1.295045 [1] 2.093024 -2.093024 [1] 28.4221 29.4873
10.3 母平均の区間推定 (母分布未知)
分散未知の場合は,スチューデント化を用い, \( \sigma^2 \) の代わりに標本不偏分散 \( S^2 \) を用いる。 標本平均のスチューデント化の従う分布は,標準正規分布になる。
母分布未知 での\( \overline{X_{(n)}}\) のスチューデント化
で,母分布が未知のため,大数の法則と中心極限定理を用いると,
\(Z_n \stackrel{d}{\longrightarrow} N(0, 1) \) , \( {\sqrt{S^2/\sigma^2}} \stackrel{P}{\longrightarrow} 1\)
なので, \(T_n \stackrel{d}{\longrightarrow} N(0, 1) \)
\( \mu \) の信頼区間 (を求める公式) を求める
\( 1-\alpha = P (|T_n| \leq z^{*}) \)
\( = P( \frac{|\overline{X_{(n)}}-\mu|}{\sqrt{S^2/n}} \leq z^{*}) \)
\( = P( {|\overline{X_{(n)}}-\mu|} \leq z^{*}\sqrt{S^2/n} ) \)
\( = P \left( \overline{X_{(n)}}-z^{*} \sqrt{S^2/n} \leq \mu \leq \overline{X_{(n)}} + z^{*}\sqrt{S^2/n} \right) \)
tz_interval <- function (alpha, sample) { c(qnorm(1-alpha/2), qnorm(alpha/2)) } ## 母平均の区間推定,母分布未知 ### alpha : 危険度, (1-alpha): 信頼度 ### sample : 標本 est_tz_conf_interval <- function (alpha, sample) { xbar = mean(sample) s2 = var(sample) n = length(sample) tz <- tz_interval(0.05, sample) sigma <- sqrt(s2) c(xbar - sigma*tz[1]/sqrt(n), xbar + sigma*tz[1]/sqrt(n)) } var(sample) tz_interval(0.05, sample) est_tz_conf_interval(0.05, sample)
[1] 0.7330411 [1] 1.959964 -1.959964 [1] 29.00330 29.75376
10.5 例: 内閣支持率調査アンケート
基本的な考え方
- 全国民に聞ければ全て判明
- 適当な人数にアンケート調査して, 適当な方法で支持率を推定したい
- アンケート結果を \( \overline{X_{(n)}} \) で得られた値 \( a \)%
- \( a \)% にどの程度誤差を見積もるか?
問題整理
- 確率変数: \( X = 1 \) で支持,\( X = 0 \)で支持しない。
- 支持率 : \( \theta \)
- 母分布 : ベルヌーイ分布
誤差を見積る
- \( \mu = \theta \)
- 推定量 \( \overline{X_{(n)}} \)
- \( \sigma^2 = \theta (1-\theta) \)
- 推定量 \(\overline{X_{(n)}} (1 - \overline{X_{(n)}}) \)
\( \theta \) の信頼区間は, \(\overline{X_{(n)}} \pm z^*_{\alpha} \sqrt{\overline{X_{(n)}} (1 - \overline{X_{(n)}})/n} \)
標本サイズと区間推定値
信頼度 \( 1-\alpha = 0.95 \) で,n=100, n=1000 での信頼区間は:
\( n=100 \) | \( 0.3 ± 1.96 \sqrt{0.3(1-0.3)/100} ≈ 0.3 ± 0.090 |
\( n=1000 \) | \( 0.3 ± 1.96 \sqrt{0.3(1-0.3)/1000} ≈ 0.3 ± 0.028 |
誤差と標本サイズ
誤差を \( \pm 1% \) 程度にしたい。 そのために必要な標本サイズはいくつか?
\( z^*_{\alpha} \sqrt{\overline{X_{(n)}} (1 - \overline{X_{(n)}})/n} \approx 0.01 \)
\begin{eqnarray} n & \approx & (z^*_{(\alpha)})^2 \overline{X_{(n)}} (1 - \overline{X_{(n)}})/(0.01)^2 \\ & = & 1.96^2\times 0.3 \times 0.7 / (0.01)^2 \\ & = & 8067 \end{eqnarray}しかし \( \overline{X_{(n)}} \)は,アンケート前にはわからないので, 分散 \( \theta (1-\theta\) \) が最大になる,\(\theta = 1/2 \) とし て,概数を求める。
\begin{eqnarray} n & \approx & (z^*_{(\alpha)})^2 \times 0.5 (1-0.5)/(0.01)^2 \\ & = & 9604 \end{eqnarray}10.7 二つの母集団の平均の差の区間推定
薬と血中濃度の問題
- Aグループ
- 新薬を投与し, \( \overline{X_{(n)}} = 3.56 \)
- Bグループ
- 新薬を投与し, \( \overline{Y_{(m)}} = 1.27 \)
平均的には,\( \overline{X_{(n)}} - \overline{Y_{(m)}} = 2.29 \) だが,その誤差の見積りは?
問題設定
母集団分布 | 無作為標本 |
\( X \sim N(\mu_x, \sigma^2_x) \) | \(X_{i=1:n} \) |
\( Y \sim N(\mu_y, \sigma^2_y) \) | \(Y_{i=1:m} \) |
のとき,\( \mu_x - \mu_y \) の区間推定
分散既知の場合
標本平均分布 | 無作為標本 |
\( \overline{X_{(n)}} \sim N(\mu_x, \sigma^2_x/n) \) | \(X_{i=1:n} \) |
\( \overline{Y_{(m)}} \sim N(\mu_y, \sigma^2_y/m) \) | \(Y_{i=1:m} \) |
\( \overline{X_{(n)}} - \overline{Y_{(m)}} \sim N(\mu_x-\mu_y, \sigma_x^2/n + \sigma_y^2/m )\)
標準化変数
\( \overline{Z} = ((\overline{X}-\overline{Y}) -(\mu_x - \mu_y)) / \sqrt{\sigma_x^2/n + \sigma_y^2/m} \)
信頼区間
\( (\overline{X}-\overline{Y}) \pm z^* \sqrt{\sigma_x^2/n + \sigma_y^2/m} \)
分散未知の場合
\( \sigma_x^2 = \sigma_y^2 = \sigma^2 \) の場合
\( \sigma^2 \) の推定量
\( S_*^2 = \frac{1}{n+m-2}\left\{\Sigma_1^n (X_i - \overline{X_{(n)}})^2+ \Sigma_1^m (Y_i - \overline{Y_{(m)}})^2 \right\} \)
- \( S_*^2 \) は \( \sigma^2 \) の不偏推定量
- \( (n+m-2) S_*^2/\sigma^2 \sim \chi^2_{n+m-2} \)
スチューデント化変数 T
\( T = \left\{(\overline{X_{(n)}} - \overline{Y_{(n)}}) - (\mu_x-\mu_y) \right\}/ \sqrt{S_x^2(1/n + 1/m )}\)
\( T \sim t_{n+m-2} \)
信頼区間
\( (\overline{X}-\overline{Y}) \pm t^*_{n+m-2} \sqrt{S_*^2(1/n + 1/m)} \)
分散未知の場合
\( \sigma_x^2 \neq \sigma_y^2 \) の場合
二つの標本不偏分散の推定量
\( S_x^2 = \frac{1}{n-1}\Sigma_1^n (X_i -\overline{X_{(n)}})^2 \longrightarrow \sigma_x^2\)
\( S_y^2 = \frac{1}{m-1}\Sigma_1^m (Y_i -\overline{Y_{(n)}})^2 \longrightarrow \sigma_y^2\)
スチューデント化変数 T
\( T^* = \left\{(\overline{X_{(n)}} - \overline{Y_{(n)}}) - (\mu_x-\mu_y) \right\}/ \sqrt{S_x^2/n + S_y^2/m )}\)
\( \lim_{n \rightarrow\infty} l\) のコンテキストで
\( T^* \sim N(0,1) \)
信頼区間
\( (\overline{X}-\overline{Y}) \pm z^*\sqrt{S_x^2/n + S_y^2/m} \)
10.8 分散パラメータの区間推定
前提
- 母集団 \( \sim N(\mu, \sigma^2) \),
- \( \mu \), \( \sigma^2 \) は未知
分散の推定量
分散の推定量 \( S^2 \) は,
\( (n-1) S^2/\sigma^2 \sim \chi^2_{n-1} \)
信頼区間
\( P( u \leq (n-1) S^2/\sigma^2 \leq v ) = 1 - \alpha \)
\( 1-\alpha = P((n-1) S^2/v \leq \sigma^2 \leq (n-1) S^2/u )\)
なので,信頼区間は,
\( \left[((n-1) S^2/v, (n-1) S^2/u ) \right]\)
95% 信頼区間の両端点
### ### ### for (d in c(4,8,16,32,64)) { print(c(d), qchisq(0.025,df=d), qchisq(0.975,df=d))) }
[1] 4.0000000 0.4844186 11.1432868 [1] 8.000000 2.179731 17.534546 [1] 16.000000 6.907664 28.845351 [1] 32.00000 18.29076 49.48044 [1] 64.00000 43.77595 88.00405
90% 信頼区間の両端点
### ### ### for (d in c(4,8,16,32,64)) { print(c(d, qchisq(0.05,df=d), qchisq(0.95,df=d))) }
[1] 4.000000 0.710723 9.487729 [1] 8.000000 2.732637 15.507313 [1] 16.000000 7.961646 26.296228 [1] 32.00000 20.07191 46.19426 [1] 64.00000 46.59491 83.67526