相关系数的计算公式(相关系数公式)
2人看过
也是因为这些,“相关不等于因果”是数据分析中首要牢记的准则。
从计算角度看,所有相关系数的目标都是将两个变量的共变信息,标准化到一个无单位的、可比较的尺度上。这使得我们可以比较身高与体重之间的相关强度,以及广告投入与销售额之间的相关强度,尽管它们的测量单位截然不同。易搜职考网提醒各位备考者,理解这种“标准化”的思想,是贯通不同相关系数计算公式的关键线索。

公式一(概念基础式): r = Cov(X, Y) / (σ_X σ_Y) 其中: - Cov(X, Y) 是变量X和Y的协方差。 - σ_X 是变量X的标准差。 - σ_Y 是变量Y的标准差。 这个公式最直观地体现了前述“标准化”思想:用两个变量的协方差除以各自标准差的乘积,从而消除量纲影响。
公式二(常用计算式): 对于一组容量为n的样本数据对 (x_i, y_i),皮尔逊相关系数 r 的计算公式为: r = [ Σ (x_i - x̄)(y_i - ȳ) ] / √[ Σ (x_i - x̄)² Σ (y_i - ȳ)² ] 其中: - x̄ 和 ȳ 分别是X和Y变量的样本均值。 - 分子是离差交叉积和,本质上是样本协方差的(n-1)倍。 - 分母是两个变量离差平方和乘积的平方根,本质上是两个样本标准差的乘积与√[(n-1)²]的乘积。 这是最直接用于手算或编程实现的形式。
公式三(基于原始分数的计算式,便于编程): r = [ nΣx_i y_i - Σx_i Σy_i ] / √{ [nΣx_i² - (Σx_i)²] [nΣy_i² - (Σy_i)²] } 该公式无需先计算均值,直接使用原始数据求和,更适合计算机运算。
2.应用前提与假设 皮尔逊相关系数的有效应用建立在以下关键假设之上:- 线性关系:假设两个变量之间的关系是线性的。如果真实关系是曲线型的,r值可能会低估关联强度。
- 连续变量:两个变量都应是连续测量的,或至少是近似连续的。
- 双变量正态分布:理想情况下,数据对应来自一个二元正态分布。在实践中,至少要求每个变量的分布近似正态,且没有极端异常值。
- 同方差性:对于所有X值,Y的条件方差应大致相同。
易搜职考网在辅导学员时强调,忽视这些前提条件而滥用皮尔逊相关系数,是数据分析中常见的错误之一,可能导致完全误导性的结论。
3.计算示例与解读 假设我们研究学习时间(X,小时)与考试成绩(Y,分)的关系,有5名学生的数据:- X: 2, 4, 6, 8, 10
- Y: 65, 70, 80, 85, 90
计算步骤: 1. 计算均值:x̄ = 6, ȳ = 78。 2. 计算离差及乘积:(2-6)(65-78)=52, (4-6)(70-78)=16, (6-6)(80-78)=0, (8-6)(85-78)=14, (10-6)(90-78)=48。 3. 分子 Σ = 52+16+0+14+48 = 130。 4. 计算X离差平方和:16+4+0+4+16=40。Y离差平方和:169+64+4+49+144=430。 5. 分母 √(40 430) = √17200 ≈ 131.15。 6. r = 130 / 131.15 ≈ 0.991。
解读:r ≈ 0.991,非常接近+1,表明学习时间与考试成绩之间存在极强的正线性相关。但必须注意,这极高的相关值源于精心构造的示例数据,现实中很少见到如此完美的线性关系。
三、 斯皮尔曼等级相关系数 当数据不满足皮尔逊相关系数的前提假设时,特别是当数据是顺序尺度(等级数据),或者存在单调非线性关系、异常值时,斯皮尔曼等级相关系数(记为 ρ 或 r_s)是一个强大的非参数替代方法。 1.计算公式与逻辑 斯皮尔曼相关系数的核心思想是:将两个变量的原始观测值分别转换为等级(排序),然后计算这两个等级序列之间的皮尔逊相关系数。也是因为这些,其公式是皮尔逊公式应用于等级数据的形式。
公式(当无重复等级时): r_s = 1 - [ 6Σd_i² ] / [ n(n² - 1) ] 其中: - d_i 是每一对观测值 (x_i, y_i) 的等级差。 - n 是观测对数。 这个简洁的公式是皮尔逊公式在无重复等级情况下的简化特例,极大地便利了手算。
公式(通用式,适用于有重复等级的情况): 直接计算变量X的等级(R_x)和变量Y的等级(R_y),然后套用皮尔逊相关系数公式: r_s = Cov(R_x, R_y) / (σ_{R_x} σ_{R_y}) 或使用计算式:r_s = [ Σ (R_{x_i} - R̄_x)(R_{y_i} - R̄_y) ] / √[ Σ (R_{x_i} - R̄_x)² Σ (R_{y_i} - R̄_y)² ] 其中 R̄_x 和 R̄_y 是等级的平均值,实际上等于 (n+1)/2。
2.应用场景与优势- 数据为顺序尺度:例如,满意度排名、比赛名次等。
- 存在单调非线性关系:只要两个变量的关系是单调的(始终递增或始终递减),即使不是直线,斯皮尔曼相关系数也能较好地捕捉其关联。
- 对异常值不敏感:因为使用了数据的相对顺序(等级),而非原始值,所以受极端值影响较小。
- 分布假设宽松:不要求数据服从正态分布。
易搜职考网发现,在管理类、心理测量类考试中,斯皮尔曼相关系数的应用场景考察频率很高。
3.计算示例 假设两位评委对5个作品的艺术性进行排名(1为最佳):- 评委A排名 (X): 1, 2, 3, 4, 5
- 评委B排名 (Y): 2, 1, 4, 3, 5
计算步骤(使用简化公式): 1. 计算等级差d: (1-2)=-1, (2-1)=1, (3-4)=-1, (4-3)=1, (5-5)=0。 2. 计算d²: 1, 1, 1, 1, 0。 Σd_i² = 4。 3. n=5, 代入公式:r_s = 1 - [64] / [5(25-1)] = 1 - 24/120 = 1 - 0.2 = 0.8。
解读:r_s = 0.8,表明两位评委的排名具有高度一致性。如果排名完全一致,则Σd_i²=0,r_s=1;如果排名完全相反,r_s = -1。
四、 肯德尔等级相关系数 另一种重要的非参数相关度量是肯德尔等级相关系数(通常指肯德尔τ系数,Tau)。它也是基于等级的一致性度量,但解释逻辑与斯皮尔曼不同。它衡量的是两个变量等级排列的一致性比例,特别适用于样本量较小或数据为有序分类的情况。 1.计算公式(肯德尔τ-a与τ-b) 肯德尔系数的核心是考察所有可能的数据对中,一致对和不一致对的数量。肯德尔 τ-a 系数(适用于无重复等级): τ = (C - D) / [ n(n-1)/2 ] 其中: - C:一致对的数量(两个变量的排序方向相同)。 - D:不一致对的数量(两个变量的排序方向相反)。 - n(n-1)/2:是所有可能的数据对总数。 这个公式直观地计算了“一致对比例减去不一致对比例”。
肯德尔 τ-b 系数(适用于有重复等级/并列等级的情况): τ_b = (C - D) / √[ (总对数 - T_x) (总对数 - T_y) ] 其中: - T_x = Σ t_x (t_x - 1)/2, t_x是X变量中每个重复等级组的大小。 - T_y = Σ t_y (t_y - 1)/2, t_y是Y变量中每个重复等级组的大小。 τ_b 是对τ-a的修正,在问卷调查(如李克特量表)数据分析中应用更广。
2.与斯皮尔曼系数的比较- 解释差异:斯皮尔曼系数基于等级差的平方,对远离中位数的等级差异赋予更大权重;肯德尔系数基于一致对计数,对所有的等级顺序变化同等敏感。
- 统计效率:在满足正态假设时,斯皮尔曼系数的统计效率略高于肯德尔系数。但在许多非参数情境下,肯德尔系数的解释更直接,且其抽样分布更接近正态。
- 对异常值的鲁棒性:两者都具有较好的鲁棒性。
数据对 (X, Y): (1,2), (2,1), (3,4), (4,3), (5,5) 比较所有C(5,2)=10对: 以(1,2)和(2,1)为例:X从1到2是增加,Y从2到1是减少,方向相反,为不一致对(D)。 以(1,2)和(3,4)为例:X从1到3增加,Y从2到4增加,方向相同,为一致对(C)。 逐一比较后(过程略),假设我们得到 C=8, D=2。(注:此例简单,实际需系统比较) 则 τ = (8-2) / 10 = 0.6。
解读:τ = 0.6,表明一致性程度较高。注意其值与斯皮尔曼的0.8不同,这正体现了二者度量逻辑的差异。
五、 其他相关系数类型简述 除了上述三大主流系数,根据数据和问题的特殊性,还有其他相关系数:- 点二列相关系数:用于衡量一个真正二分类变量(如男/女,是/否)与一个连续变量之间的相关。
- Φ系数:用于衡量两个真正二分类变量之间的相关,是2x2列联表中卡方统计量的函数。
- 偏相关系数与半偏相关系数:用于在控制了一个或多个其他变量影响后,衡量两个变量之间的“纯净”相关。这在多变量分析中至关重要,能帮助识别虚假相关。
易搜职考网的研究表明,在高级统计分析与数据挖掘岗位的考核中,对偏相关等概念的理解深度往往是区分考生水平的关键。
六、 公式选择、计算实现与结果解读的实践指南 1.如何选择正确的相关系数? 选择过程是一个决策树:判断变量类型。如果两个都是连续变量且初步散点图显示线性趋势,检查正态性和异常值。若满足条件,首选皮尔逊相关系数。若不满足(特别是存在非线性单调趋势或异常值),则使用斯皮尔曼或肯德尔系数。
如果数据本质上是等级或顺序数据,直接使用斯皮尔曼或肯德尔系数。
考虑样本量和小样本特性。对于非常小的样本,肯德尔τ有时更稳定。对于有大量重复等级的数据,肯德尔τ-b更合适。
2.计算实现的注意事项 在现代数据分析中,手工计算主要服务于理解原理。实际工作多借助软件:- Excel:`CORREL` 函数计算皮尔逊系数。斯皮尔曼和肯德尔系数需通过排序后计算或加载分析工具库。
- Python (pandas/scipy):`pandas.DataFrame.corr(method='pearson/spearman/kendall')`, `scipy.stats.pearsonr/spearmanr/kendalltau`。
- R语言:`cor(x, y, method = c("pearson", "kendall", "spearman"))`。
无论使用何种工具,易搜职考网都建议在计算前和计算后完成以下步骤:绘制散点图直观观察关系;检查描述性统计量和数据分布;在报告相关系数时,必须同时报告其p值(或置信区间)以评估统计显著性,以及样本量n。
3.结果解读的常见陷阱陷阱一:混淆相关与因果。这是最根本的陷阱。除非有严谨的实验设计,否则相关系数仅能提示关联,不能证明因果。
陷阱二:忽视线性假设。一个接近0的皮尔逊相关系数可能意味着没有线性关系,但可能存在强烈的曲线关系(如U型)。始终结合图形分析。
陷阱三:受异常值过度影响。单个极端点可能显著扭曲皮尔逊相关系数。在报告前,务必检查数据中是否存在有影响的异常点。
陷阱四:忽略群体异质性。将不同质的数据混合计算,可能得到虚假的相关或掩盖真实的相关。
例如,分性别、年龄段看,可能呈现不同的相关模式。
陷阱五:仅依赖统计显著性。在大样本下,即使非常微弱(如|r|=0.05)的相关也可能在统计上显著(p<0.05),但这种相关可能毫无实际意义。应同时关注相关系数的效应量(即r的绝对值大小)。

通过对皮尔逊、斯皮尔曼、肯德尔等核心相关系数计算公式的层层剖析,我们得以窥见统计学量化变量关系的精巧逻辑。从协方差的标准化,到等级转换的一致性度量,每一种公式都是针对特定数据特征和问题情境量身打造的工具。易搜职考网长期致力于将这类核心的量化分析知识,转化为职场人士与备考学子易于理解和应用的能力模块。掌握这些公式不仅仅是记忆数学表达式,更是要理解其背后的假设、局限与应用场景,从而在纷繁复杂的数据中,做出准确、稳健的相关性判断,为科学决策提供坚实支撑。在数据驱动的时代,这项技能的价值正日益凸显。
211 人看过
209 人看过
206 人看过
199 人看过


