Regression Analysis and Feature Selection
先来复习点基础概念
-
RSS (Residual Sum of Squares):残差平方和
RSS=i=1∑n(yi−y^i)2
-
TSS (Total Sum of Squares):总平方和
TSS=i=1∑n(yi−yˉ)2
-
ESS (Explained Sum of Squares):回归平方和
ESS=i=1∑n(y^i−yˉ)2
==> TSS=ESS+RSS
-
MSE (Mean Squared Error):均方误差
MSE=n1i=1∑n(yi−y^i)2
-
Variance:方差
Var(y)=n1i=1∑n(yi−yˉ)2
==> R2=VE=1−TSSRSS=1−Var(Y)MSE
线性回归
线性回归的假设
- No Outliers: 没有
离群值
- No Multicollinearity: 没有
多重共线性 - 自变量之间的高相关性
- No Heteroscedasticity: 没有
异方差性
Hetroscedasticity (异方差性): 指的是残差随着自变量的变化而变化,也就是残差的方差不是常数
Fixing broken assumptions (解决假设不成立的情况)