線形回帰手法まとめ
概要 最近学んだ線形回帰手法の特徴についてまとめる. 具体的には,特定のデータセットに対して,重回帰(Ordinary Least Squares: OLS),リッジ回帰(Ridge Regression: RR),部分最小自乗回帰(Partial Least Squares: PLS)の3つの線形回帰手法を適用し,結果を考察する. 重回帰 説明変数$ X$および目的変数$ y$が与えられているとき, $ y = X b + e$ のように,目的変数が説明変数と回帰係数$ b$との線形結合によって表されているとするのが,線形回帰の考え方である. ここで,重回帰においては,残差$ e$の二乗和 $Q = e^T e$ が最小となるように回帰係数を決定する. 残差二乗和が最小となるときの回帰係数は $ b = ( X^T X)^{-1} X^T y$ として与えられることが知られている. リッジ回帰 重回帰では,$ X^T X$が逆行列を持たない場合,残差二乗和を最小化できない. これは,説明変数が線形従属である場合や,サンプル数が入力変数の数より少ない場合に対応する. また,説明変数が厳密に線形従属でなくても,変数間に強い相関がある場合には,回帰係数の分散が大きくなり,推定結果の信頼性が低下してしまう問題が起きる. これを,多重共線性の問題という. 回帰係数を小さく抑えるためのひとつの手法として,リッジ回帰が挙げられる. リッジ回帰においては,残差の二乗和に加えて,回帰係数の二乗和を加えた $Q’ = e^T e + \lambda b^T b$ が最小となるよう,回帰係数を決定する.ここで,$\lambda\ge0$を複雑度パラメータと呼ぶ. 残差二乗和が最小となるときの回帰係数は $ b = ( X^T X + \lambda I)^{-1} X^T y$ ...