6章 2つの平均値を比較する
6.0 この章での検定
- 独立な2群の平均値の差の検定
- 対応のある2群の平均値の差の検定
6.1 2つの平均値を比較するケース
- 男女で心理学テストの平均値に差があるかを検討したい。
- 統計が好き・嫌いで統計テストの平均値に差があるかを検討したい。
- 統計の指導を受けたことにより成績が向上するかを検討したい。
6.2 独立な2群の検定
分散既知 あるいは 大標本の場合 (z-検定)
確率変数の和の平均と分散の期待値の公式より,標本平均の差の標本分 布は,
\begin{equation} \bar{x_1} - \bar{x_2} \sim N(\mu_1-\mu_2, \sigma^2(\frac{1}{n_1}+\frac{1}{n_2})) \end{equation}標準化することで,
\[ \bar{Z} = \frac{\bar{X_1} - \bar{X_2} - (\mu_1-\mu_2)}{\sigma\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim N(0,1) \]
分散未知の場合 (t-検定)
母分散を不偏分散で推定する。 標本平均の不偏分散を \( \hat{\sigma_1} \), \( \hat{\sigma_2} \) \) とすると,標本平均の差の不偏分散は,その加重平均となる:
\[ \hat{\sigma}_{pooled} = \frac{(n_1-1)\hat{\sigma_1}^2 + (n_2-1)\hat{\sigma_2}^2} {(n_1-1) + (n_2 -1)} \]
母分散の推定量 \( \hat{\sigma}_{pooled} \) のことを,2群をプールし た分散という。
\[ \bar{t} = \frac{\bar{X_1} - \bar{X_2}}{\sqrt{\hat{\sigma}_{pooled}^2(\frac{1}{n_1}+\frac{1}{n_2}})} \sim t_{(n_1-1)+(n_2-2)} \]
例題
統計テスト1の得点の平均値に男女で有意な差があるでしょうか? 有意水準5%,両側検定してください。
データの準備
(指導法データ <- read.csv("data/shidouhouU8.csv")) class(指導法データ)
SID name sex math stat psych_test stat_test1 stat_test2 method 1 1 大村 男 嫌い 好き 13 6 10 C 2 2 本多 男 嫌い 好き 14 10 13 B 3 3 川崎 男 好き 好き 7 6 8 B 4 4 多村 男 好き 好き 12 10 15 A 5 5 松中 男 嫌い 嫌い 10 5 8 B 6 6 小久保 男 嫌い 嫌い 6 3 6 C 7 7 柴原 男 嫌い 嫌い 8 5 9 A 8 8 井手 男 嫌い 嫌い 15 9 10 D 9 9 田上 男 嫌い 嫌い 4 3 7 D 10 10 松田 男 好き 嫌い 14 3 3 D 11 11 高谷 女 好き 好き 9 11 18 A 12 12 杉内 女 嫌い 好き 6 6 14 A 13 13 和田 女 好き 好き 10 11 18 A 14 14 新垣 女 嫌い 嫌い 12 9 11 C 15 15 大隣 女 嫌い 好き 5 7 12 B 16 16 水田 女 好き 嫌い 12 5 5 D 17 17 斉藤 女 嫌い 嫌い 8 8 7 C 18 18 柳瀬 女 嫌い 嫌い 8 7 12 C 19 19 佐藤 女 嫌い 嫌い 12 7 7 B 20 20 馬原 女 嫌い 嫌い 15 9 7 D [1] "data.frame"
男女別
(統計1男 <- subset(指導法データ, sex=="男")$stat_test1) (統計1女 <- subset(指導法データ, sex=="女")$stat_test1)
[1] 6 10 6 10 5 3 5 9 3 3 [1] 11 6 11 9 7 5 8 7 7 9
t-検定 (等母分散)
母分散が等しいことを前提としているので,2群の分散が等しいことを 示す var.equal=TRUE を指定する。
t.test(統計1男, 統計1女, var.equal=TRUE)
Two Sample t-test data: 統計1男 and 統計1女 t = -1.8429, df = 18, p-value = 0.08188 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -4.2800355 0.2800355 sample estimates: mean of x mean of y 6 8
t-検定 (異なる母分散)
2群の分散が等しくないいことを 示す var.equal=FALSE を指定する。
帰無分布は同じく t-分布であるが、自由度が異なる (統計学入門,12.2.4)
t.test(統計1男, 統計1女, var.equal=FALSE)
Welch Two Sample t-test data: 統計1男 and 統計1女 t = -1.8429, df = 16.321, p-value = 0.08359 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -4.2969668 0.2969668 sample estimates: mean of x mean of y 6 8
6.3 t-検定の前提条件
- 標本抽出が無作為に行われていること
- 母集団の分布が正規分布であること
- 2つの母集団の分散が等質であること
3つの条件は,帰無分布が t-分布になるために必要です。
6.3.1 分散の等質性の検定
- 2つの母集団の分散の等質性を,
- それぞれの母集団からの2つの標本を用いて,
- 「ふたつの母分散は等しい」という帰無仮説の検定をおこなう
- R では, var.test
例題
クラスA,Bの統計学のテストの平均点に有意な差があるでしょうか? 有意水準5%で検定を行ってください。
データ
(クラスA <- c(54, 55, 52, 48, 50, 38, 41, 40, 53, 52)) (クラスB <- c(57, 63, 50, 60, 61, 69, 43, 58, 36, 29)) var.test(クラスA, クラスB)
[1] 54 55 52 48 50 38 41 40 53 52 [1] 57 63 50 60 61 69 43 58 36 29 F test to compare two variances data: クラスA and クラスB F = 0.24157, num df = 9, denom df = 9, p-value = 0.04588 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.06000201 0.97255026 sample estimates: ratio of variances 0.2415677
6.4 対応のある (z,t)-検定
- 独立な2群 or 対応のない2群
- 例えば30人の被験者を,ランダムに2群に分た場合
- 対応のある2群
- 同じ人の2種類のデータ。対応付られた2人ごとのデータ。
対応のあるデータの検定量
統計テスト1の得点を \( X_1 \), 統計テスト2の得点を \( X_2 \), 対応する得点差を \( D = X_2 - X_1 \), とすると,それらの標本平 均にたいし,下式が成り立つ:
\[ \bar{D} = \bar{X}_2 - \bar{X}_1 \]
得点差の標本平均の計算
指導法データ <- read.csv("data/shidouhouU8.csv") (統計テスト1 <- 指導法データ$stat_test1) (統計テスト2 <- 指導法データ$stat_test2) (変化量 <- 統計テスト2 - 統計テスト1) c(mean(統計テスト2) - mean(統計テスト1), mean(変化量))
[1] 6 10 6 10 5 3 5 9 3 3 11 6 11 9 7 5 8 7 7 9 [1] 10 13 8 15 8 6 9 10 7 3 18 14 18 11 12 5 7 12 7 7 [1] 4 3 2 5 3 3 4 1 4 0 7 8 7 2 5 0 -1 5 0 -2 [1] 3 3
得点差の標本平均が従がう分布
- \( X_i \sim N(\mu_{i}, \sigma^2_{i}) \) を仮定すれば,
- \( D \sim N(\mu_{D}, \sigma^2_{D}) \) となり,
- 標本分布は,\( \bar{D} \sim N(\mu_{D}, \frac{\sigma^2_{D}}{n}) \) となる。
- \( \bar{D} \) を標準化して, \( n \)を標本数として, \[ Z = \frac {\bar{D} - \mu_{D}} {\sigma_{D} \sqrt{n}} \sim N(0,1) \]
- \(\mu_D \) が既知ならば,z-検定
- \(\mu_D \) が未知ならば,不偏分散を用いたt-検定
例題:
「指導法データ」の統計テスト1と統計テスト2の得点について、指導 の前後で統計テストの得点が変化したといえるでしょうか。有意水準 5%、両側検定で検定してください。
t.test(変化量)
One Sample t-test data: 変化量 t = 4.8399, df = 19, p-value = 0.0001138 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 1.702645 4.297355 sample estimates: mean of x 3