重回帰分析
■(単)回帰分析
- 単回帰分析では一つの従属変数(目的変数)を、一つの独立変数(説明変数)で予測する事を考える。
- 具体的にはy = a + bx という回帰直線(モデル)でデータを代表させる。このためにデータからこの回帰直線の切片(a)と傾き(b)を最小2乗法によって求める。
- モデルの当てはまりのよさは決定係数(R2:相関係数の2乗)で表される。また、分散分析で検定ができる。
- 切片と傾きは、t検定によって検定(ゼロでないかどうかの検定)できる。
■重回帰分析
- 重回帰分析では一つの目的変数を、複数の説明変数で予測する事を考える。このような手続きをとる事によって、どの説明変数が、どの程度目的変数に影響を与えているかを知る事ができる。
- たとえば3つの独立変数がある場合、重回帰式は
y = a + b1x1 + b2x2 + b3x3
となる。それぞれの独立変数にかかっている係数を「偏回帰係数」と呼ぶ。
- 単回帰分析と同様に、モデルの当てはまりの良さは決定係数で表され、分散分析で検定できる。また、切片と偏回帰係数についてはt検定で検定できる。
- 独立変数の単位が相互に異なるときは「標準化係数」を見る。これは各変数内で値を標準化し、その後に重回帰分析を行ったものである。
- モデルの適合性と有意性の検定についてはここを参照。
■(多重)共線性
- 重回帰分析を行う際の独立変数の中に、相互に相関係数の高い独立変数のペアがある場合、これらの独立変数の間には(多重)共線性がある、という。
- 相関係数が高いということは、これらの変数は「同じものを測っている」と考えることができる。したがって、両方の変数を同時に分析に加えるのは意味がない。
- このような場合はいずれか片方の変数のみ(あるいは両方の変数の合計を新しい変数としてその変数を)、分析に加える。
- 共線性があるか否かを確かめるには、変数の散布図を描いてみる。あるいはオプションの「統計」ボタンで「共線性の診断」にチェックマークをいれ、VIF(分散拡大係数)を見る。
- VIFは独立変数ごとに計算されるが、この値が高いと共線性が疑われる。
■変数の選択
- 重回帰分析の重要な役割に「変数の選択」がある。
- 従属変数に影響を及ぼしている変数を、多くの変数の中から選択する。これは独立変数の組み合わせを様々に変化させて重回帰分析を繰り返し、最も当てはまりの良いモデルを選択する方法である。
- このために様々な方法が用意されている。
強制投入法: 全ての変数を強制的に取り入れる方法。
変数増加法: 単回帰から出発し順次変数を取り入れていく方法。
変数減少法: 全ての変数を含んだ重回帰モデルから出発し、順次変数を減少させていく方法。
ステップワイズ法: 変数増加法と変数減少法を組み合わせた方法。事実上標準的方法。
- モデルの評価には分散分析と決定係数を用いる。
- 決定係数は、独立変数の数が増えると単純に増加していく性質がある。したがって意味のない独立変数を分析にいれても決定係数だけは上昇していく。この欠点を補うために「自由度調整済み決定係数」がある。
■回帰分析の実行手順
- 回帰分析の手順:[分析]→[回帰]→[線形]
- グラフの作図:[グラフ]→[散布図]か、[グラフ]→[インタラクティブ]→[散布図]
■重回帰分析についてのレジュメ
重回帰分析についてのレジュメはここを参照の事。
■大切な用語
- 重回帰式
- 偏回帰係数、標準偏回帰係数
- 決定係数、自由度調整済み決定係数
- 多重共線性、VIF(分散拡大係数)
■データ例
- 平均寿命の例
6年間のデータ
平均寿命を医療費とタンパク質摂取量から予測する。
- 体力測定の例
大学生男女25名ずつの体力測定データ
走り幅跳びの距離は何によって決定されているか
多変量解析のページに戻る
目次のページに戻る