相似系数是一种衡量两个向量相关性的指标。对于已测定 n 个变量的 p 组数据,令 X 为一个 n x p 的矩阵,则变量 xi 和 xj 的相关性,记为相关系数 rij,可定义为:

r_{ij}=frac{sum_{k=1}^{p}x_{ik}x_{jk}}{sqrt{sum_{k=1}^{p}x_{ik}^2sum_{k=1}^{p}x_{jk}^2}}

其中,x_{ik} 表示数据集中第 i 个变量的第 k 个观测值。