摘要
数据分析中无处不在的知识点
SSE(和方差、误差平方和):The sum of squares due to error
MSE(均方差、方差):Mean squared error
RMSE(均方根、剩余标准差):Root mean squared error
$R^2$(判断系数,拟合优度):Coefficient of determination
定义
在统计学中,均方误差是参数估计值与参数真值之差平方的期望值,是衡量“平均误差”的一种较方便的方法,MSE可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度。
引言
方差
方差是在概率论和统计方差衡量随机变量或一组数据的离散程度的度量方式,方差越大,离散度越大。求解方式为,各随机变量与平均值差值的平方和的平均数
平均数:
方差公式:
标准差
标准差就是方差的算术平方根,它反映组内个体间的离散程度。因此它的过程是与平均值之间进行差值计算
标准差公式:
样本方差
SSE(误差平方和)
在统计学里,该参数计算的是拟合数据很原始数据对应点的误差的平方和,计算公式为:
$y_i$是真实数据,$\hat{y}_i$是拟合数据
MSE(方差)
是预测数据和原始数据对应点误差的平方和的均值,也就是$\frac{SSE}{n-m}$,$n$是观测数据的个数,$m$j是拟合数据的个数,和$SSE$没有太大的区别,计算公式为:
RMSE(剩余标准差)
也是叫回归系统的拟合标准差,是$MSE$的平方根,计算公式为:
$R^2$(判断系数)
在讲判断系数之前,先介绍另外两个参数$SSR$和$SST$,因为判断系数就是由这两个参数决定的
对总平方和$SST = \sum_{i=1}^{n}(y_i-\overline{y})^2$进行分解,有
其中$\overline{y} = \frac{1}{n}\sum_{i=1}^{n}y_i$,$SSE$是误差平方和,反映随机误差对$y$的影响,$SSR$是回归平方和,反映自变量对$y$的影响
判断系数定义为
调整的$R^2$
统计学家主张在回归建模时,就采用尽可能少的自变量,不要盲目地追求判定系数的提高。当变量增加时,残量的自由度就会减少。而自由度越小,数据的统计趋势就越不容易显现。为此,又定义了一个调整判断系数
$\overline{R^2}$与$R^2$的关系是
当$n$很小,$m$很大时,$\overline{R^2}$会远小于$R^2$