自由度的几何:对截距项投影残差向量的长度平方

这是《相关系数的几何:对截距投影的残差向量之间交角余弦》示意图,恰好可以用于解释为什么 \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}满足的 \chi^2分布dfn-1而不是n

其中 X_{i}\equiv\mu+\varepsilon_{i} \left[\begin{array}{c}\varepsilon_{1}\\\varepsilon_{2}\\\vdots\\\varepsilon_{n}\end{array}\right]n维空间中的标准正态随机向量。那么,容易知道有 \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}=\sum_{i=1}^{n}\left(\varepsilon{}_{i}-\bar{\varepsilon}\right)^{2}。这个表达式就是向量 \left[\begin{array}{c}\varepsilon_{1}\\\varepsilon_{2}\\\vdots\\\varepsilon_{n}\end{array}\right]-\left[\begin{array}{c}\bar{\varepsilon}\\\bar{\varepsilon}\\\vdots\\\bar{\varepsilon}\end{array}\right]长度的平方。我们已经知道, \left[\begin{array}{c}\bar{\varepsilon}\\\bar{\varepsilon}\\\vdots\\\bar{\varepsilon}\end{array}\right]就是 \left[\begin{array}{c}\varepsilon_{1}\\\varepsilon_{2}\\\vdots\\\varepsilon_{n}\end{array}\right]在截距向量(日晷指针) \left[\begin{array}{c}1\\1\\\vdots\\1\end{array}\right]上的投影。自然, \left[\begin{array}{c}\varepsilon_{1}\\\varepsilon_{2}\\\vdots\\\varepsilon_{n}\end{array}\right]-\left[\begin{array}{c}\bar{\varepsilon}\\\bar{\varepsilon}\\\vdots\\\bar{\varepsilon}\end{array}\right]就是对截距项投影残差向量,也就是在日晷盘上的投影。

日晷所处空间的n是3。如果我们对 \left[\begin{array}{c}\varepsilon_{1}\\\varepsilon_{2}\\\varepsilon_{3}\end{array}\right]抽样许多次,就会看到三维空间中各个方向对称的标准正态分布散点图。这些散点图在日晷盘上的投影就是二维空间标准正态分布散点图。日晷盘中这些点对应向量的长度平方自然是 \chi^2_{df=2}的抽样。

相关系数的几何:对截距投影的残差向量之间交角余弦


一直马虎地以为两个列向量的内积就是它们所代表变量的相关系数,结果今天在学生面前出了一回丑,企图让一列常数和另一个列向量的相关系数接近1。大家都知道,一列常数和任何一个列向量的相关系数必定为零。

我的错误在于忘记了协方差表达式中,列向量作内积之前有一步中心化:减去全列的均值。被减去的实际上是一个向量,等于全列均值 \bar{x}乘以向量 \left[\begin{array}{c}1\\1\\1\\\vdots\\1\end{array}\right],也就是 \left[\begin{array}{c}x_{1}\\x_{2}\\x_{3}\\\vdots\\x_{n}\end{array}\right]在截距向量、也就是“对角线”轴方向上的投影。 \left[\begin{array}{c}x_{1}\\x_{2}\\x_{3}\\\vdots\\x_{n}\end{array}\right]减去这个投影,是没有任何解释变量、只有截距项时的回归残差,这个残差向量 \left[\begin{array}{c}x_{1}-\bar{x}\\x_{2}-\bar{x}\\x_{3}-\bar{x}\\\vdots\\x_{n}-\bar{x}\end{array}\right]和截距方向垂直,所以落在垂直于“对角线”截距向量(日晷指针)的线性子空间里(日晷盘)。协方差实际上是这样的两个残差向量内积,而相关系数就是两残差向量之间的夹角Cosine值。