相关系数的计算公式(相关系数公式)

作者：佚名

2人看过

发布时间：2026-03-20 01:07:42

：相关系数在数据科学、统计学、金融分析、心理学乃至社会科学等众多领域，探寻两个或多个变量之间的关联性是一项基础且至关重要的任务。这种关联性的强弱与方向，并非总是一目了然，需要一种精确的数学工具

相关系数在数据科学、统计学、金融分析、心理学乃至社会科学等众多领域，探寻两个或多个变量之间的关联性是一项基础且至关重要的任务。这种关联性的强弱与方向，并非总是一目了然，需要一种精确的数学工具来量化，这就是相关系数。它本质上是一个统计指标，用以衡量两个随机变量之间线性关系的强度和方向。其值域通常介于-1到+1之间，为我们提供了清晰直观的解读框架：正值表示正相关，即一个变量增加时，另一个变量也倾向于增加；负值表示负相关，即一个变量增加时，另一个变量倾向于减少；而绝对值的大小则直接反映了线性关系的强弱，0表示没有线性关系，但需注意这并不等同于没有关系（可能存在非线性关系）。在实践应用中，选择正确的相关系数类型及其计算公式至关重要，常见的包括皮尔逊积矩相关系数、斯皮尔曼等级相关系数和肯德尔等级相关系数等，它们各有其适用的数据前提和场景。深入理解并熟练运用这些公式，是进行严谨数据分析、做出科学决策的基石。易搜职考网在长期的职业考试研究与培训实践中发现，对相关系数计算原理的深刻掌握，不仅是应对统计学、经济学、心理学等相关考试的关键考点，更是广大职场人士提升数据分析能力、实现职业进阶的必备技能。本论述将抛开繁杂的引用，直接切入核心，系统性地阐述几种主流相关系数的计算公式、推导逻辑、应用前提及实际解读，旨在为易搜职考网的广大用户与学习者构建一个清晰、实用、深入的知识体系。 相关系数的计算公式详述
一、相关系数的核心概念与意义在开始探讨具体公式之前，我们必须确立对相关系数本质的统一认识。相关系数并非描述变量间因果关系的工具，它仅仅度量的是协变趋势。一个接近+1或-1的强相关系数，可能源于因果关系，也可能源于共同的潜在变量，或者纯粹是巧合。
也是因为这些，“相关不等于因果”是数据分析中首要牢记的准则。

从计算角度看，所有相关系数的目标都是将两个变量的共变信息，标准化到一个无单位的、可比较的尺度上。这使得我们可以比较身高与体重之间的相关强度，以及广告投入与销售额之间的相关强度，尽管它们的测量单位截然不同。易搜职考网提醒各位备考者，理解这种“标准化”的思想，是贯通不同相关系数计算公式的关键线索。

相关系数的计算公式

二、皮尔逊积矩相关系数这是最常用、最广为人知的相关系数，由卡尔·皮尔逊提出。它度量的是两个连续变量之间的线性相关程度。
1.计算公式及其构成皮尔逊相关系数（通常记为 r）的公式有多种等价的表达形式，每种都揭示了其构成的不同侧面。

公式一（概念基础式）： r = Cov(X, Y) / (σ_X σ_Y) 其中： - Cov(X, Y) 是变量X和Y的协方差。 - σ_X 是变量X的标准差。 - σ_Y 是变量Y的标准差。这个公式最直观地体现了前述“标准化”思想：用两个变量的协方差除以各自标准差的乘积，从而消除量纲影响。

公式二（常用计算式）：对于一组容量为n的样本数据对 (x_i, y_i)，皮尔逊相关系数 r 的计算公式为： r = [ Σ (x_i - x̄)(y_i - ȳ) ] / √[ Σ (x_i - x̄)² Σ (y_i - ȳ)² ] 其中： - x̄ 和 ȳ 分别是X和Y变量的样本均值。 - 分子是离差交叉积和，本质上是样本协方差的(n-1)倍。 - 分母是两个变量离差平方和乘积的平方根，本质上是两个样本标准差的乘积与√[(n-1)²]的乘积。这是最直接用于手算或编程实现的形式。

公式三（基于原始分数的计算式，便于编程）： r = [ nΣx_i y_i - Σx_i Σy_i ] / √{ [nΣx_i² - (Σx_i)²] [nΣy_i² - (Σy_i)²] } 该公式无需先计算均值，直接使用原始数据求和，更适合计算机运算。

2.应用前提与假设皮尔逊相关系数的有效应用建立在以下关键假设之上：

线性关系：假设两个变量之间的关系是线性的。如果真实关系是曲线型的，r值可能会低估关联强度。
连续变量：两个变量都应是连续测量的，或至少是近似连续的。
双变量正态分布：理想情况下，数据对应来自一个二元正态分布。在实践中，至少要求每个变量的分布近似正态，且没有极端异常值。
同方差性：对于所有X值，Y的条件方差应大致相同。

易搜职考网在辅导学员时强调，忽视这些前提条件而滥用皮尔逊相关系数，是数据分析中常见的错误之一，可能导致完全误导性的结论。

3.计算示例与解读假设我们研究学习时间（X，小时）与考试成绩（Y，分）的关系，有5名学生的数据：

X: 2, 4, 6, 8, 10
Y: 65, 70, 80, 85, 90

计算步骤：
1. 计算均值：x̄ = 6, ȳ = 78。
2. 计算离差及乘积：(2-6)(65-78)=52, (4-6)(70-78)=16, (6-6)(80-78)=0, (8-6)(85-78)=14, (10-6)(90-78)=48。
3. 分子 Σ = 52+16+0+14+48 = 130。
4. 计算X离差平方和：16+4+0+4+16=40。Y离差平方和：169+64+4+49+144=430。
5. 分母 √(40 430) = √17200 ≈ 131.15。
6. r = 130 / 131.15 ≈ 0.991。

解读：r ≈ 0.991，非常接近+1，表明学习时间与考试成绩之间存在极强的正线性相关。但必须注意，这极高的相关值源于精心构造的示例数据，现实中很少见到如此完美的线性关系。

三、斯皮尔曼等级相关系数当数据不满足皮尔逊相关系数的前提假设时，特别是当数据是顺序尺度（等级数据），或者存在单调非线性关系、异常值时，斯皮尔曼等级相关系数（记为 ρ 或 r_s）是一个强大的非参数替代方法。
1.计算公式与逻辑斯皮尔曼相关系数的核心思想是：将两个变量的原始观测值分别转换为等级（排序），然后计算这两个等级序列之间的皮尔逊相关系数。
也是因为这些，其公式是皮尔逊公式应用于等级数据的形式。

公式（当无重复等级时）： r_s = 1 - [ 6Σd_i² ] / [ n(n² - 1) ] 其中： - d_i 是每一对观测值 (x_i, y_i) 的等级差。 - n 是观测对数。这个简洁的公式是皮尔逊公式在无重复等级情况下的简化特例，极大地便利了手算。

公式（通用式，适用于有重复等级的情况）：直接计算变量X的等级(R_x)和变量Y的等级(R_y)，然后套用皮尔逊相关系数公式： r_s = Cov(R_x, R_y) / (σ_{R_x} σ_{R_y}) 或使用计算式：r_s = [ Σ (R_{x_i} - R̄_x)(R_{y_i} - R̄_y) ] / √[ Σ (R_{x_i} - R̄_x)² Σ (R_{y_i} - R̄_y)² ] 其中 R̄_x 和 R̄_y 是等级的平均值，实际上等于 (n+1)/2。

2.应用场景与优势

数据为顺序尺度：例如，满意度排名、比赛名次等。
存在单调非线性关系：只要两个变量的关系是单调的（始终递增或始终递减），即使不是直线，斯皮尔曼相关系数也能较好地捕捉其关联。
对异常值不敏感：因为使用了数据的相对顺序（等级），而非原始值，所以受极端值影响较小。
分布假设宽松：不要求数据服从正态分布。

易搜职考网发现，在管理类、心理测量类考试中，斯皮尔曼相关系数的应用场景考察频率很高。

3.计算示例假设两位评委对5个作品的艺术性进行排名（1为最佳）：

评委A排名 (X): 1, 2, 3, 4, 5
评委B排名 (Y): 2, 1, 4, 3, 5

计算步骤（使用简化公式）：
1. 计算等级差d： (1-2)=-1, (2-1)=1, (3-4)=-1, (4-3)=1, (5-5)=0。
2. 计算d²： 1, 1, 1, 1, 0。 Σd_i² = 4。
3. n=5，代入公式：r_s = 1 - [64] / [5(25-1)] = 1 - 24/120 = 1 - 0.2 = 0.8。

解读：r_s = 0.8，表明两位评委的排名具有高度一致性。如果排名完全一致，则Σd_i²=0，r_s=1；如果排名完全相反，r_s = -1。

四、肯德尔等级相关系数另一种重要的非参数相关度量是肯德尔等级相关系数（通常指肯德尔τ系数，Tau）。它也是基于等级的一致性度量，但解释逻辑与斯皮尔曼不同。它衡量的是两个变量等级排列的一致性比例，特别适用于样本量较小或数据为有序分类的情况。
1.计算公式（肯德尔τ-a与τ-b）肯德尔系数的核心是考察所有可能的数据对中，一致对和不一致对的数量。

肯德尔 τ-a 系数（适用于无重复等级）： τ = (C - D) / [ n(n-1)/2 ] 其中： - C：一致对的数量（两个变量的排序方向相同）。 - D：不一致对的数量（两个变量的排序方向相反）。 - n(n-1)/2：是所有可能的数据对总数。这个公式直观地计算了“一致对比例减去不一致对比例”。

肯德尔 τ-b 系数（适用于有重复等级/并列等级的情况）： τ_b = (C - D) / √[ (总对数 - T_x) (总对数 - T_y) ] 其中： - T_x = Σ t_x (t_x - 1)/2， t_x是X变量中每个重复等级组的大小。 - T_y = Σ t_y (t_y - 1)/2， t_y是Y变量中每个重复等级组的大小。 τ_b 是对τ-a的修正，在问卷调查（如李克特量表）数据分析中应用更广。

2.与斯皮尔曼系数的比较

解释差异：斯皮尔曼系数基于等级差的平方，对远离中位数的等级差异赋予更大权重；肯德尔系数基于一致对计数，对所有的等级顺序变化同等敏感。
统计效率：在满足正态假设时，斯皮尔曼系数的统计效率略高于肯德尔系数。但在许多非参数情境下，肯德尔系数的解释更直接，且其抽样分布更接近正态。
对异常值的鲁棒性：两者都具有较好的鲁棒性。

3.计算示例（τ-a）使用前述评委排名的相同数据：

数据对 (X, Y): (1,2), (2,1), (3,4), (4,3), (5,5) 比较所有C(5,2)=10对：以(1,2)和(2,1)为例：X从1到2是增加，Y从2到1是减少，方向相反，为不一致对(D)。以(1,2)和(3,4)为例：X从1到3增加，Y从2到4增加，方向相同，为一致对(C)。逐一比较后（过程略），假设我们得到 C=8, D=2。（注：此例简单，实际需系统比较）则 τ = (8-2) / 10 = 0.6。

解读：τ = 0.6，表明一致性程度较高。注意其值与斯皮尔曼的0.8不同，这正体现了二者度量逻辑的差异。

五、其他相关系数类型简述除了上述三大主流系数，根据数据和问题的特殊性，还有其他相关系数：

点二列相关系数：用于衡量一个真正二分类变量（如男/女，是/否）与一个连续变量之间的相关。
Φ系数：用于衡量两个真正二分类变量之间的相关，是2x2列联表中卡方统计量的函数。
偏相关系数与半偏相关系数：用于在控制了一个或多个其他变量影响后，衡量两个变量之间的“纯净”相关。这在多变量分析中至关重要，能帮助识别虚假相关。

易搜职考网的研究表明，在高级统计分析与数据挖掘岗位的考核中，对偏相关等概念的理解深度往往是区分考生水平的关键。

六、公式选择、计算实现与结果解读的实践指南
1.如何选择正确的相关系数？选择过程是一个决策树：

判断变量类型。如果两个都是连续变量且初步散点图显示线性趋势，检查正态性和异常值。若满足条件，首选皮尔逊相关系数。若不满足（特别是存在非线性单调趋势或异常值），则使用斯皮尔曼或肯德尔系数。

如果数据本质上是等级或顺序数据，直接使用斯皮尔曼或肯德尔系数。

考虑样本量和小样本特性。对于非常小的样本，肯德尔τ有时更稳定。对于有大量重复等级的数据，肯德尔τ-b更合适。

2.计算实现的注意事项在现代数据分析中，手工计算主要服务于理解原理。实际工作多借助软件：

Excel：`CORREL` 函数计算皮尔逊系数。斯皮尔曼和肯德尔系数需通过排序后计算或加载分析工具库。
Python (pandas/scipy)：`pandas.DataFrame.corr(method='pearson/spearman/kendall')`， `scipy.stats.pearsonr/spearmanr/kendalltau`。
R语言：`cor(x, y, method = c("pearson", "kendall", "spearman"))`。

无论使用何种工具，易搜职考网都建议在计算前和计算后完成以下步骤：绘制散点图直观观察关系；检查描述性统计量和数据分布；在报告相关系数时，必须同时报告其p值（或置信区间）以评估统计显著性，以及样本量n。

3.结果解读的常见陷阱

陷阱一：混淆相关与因果。这是最根本的陷阱。除非有严谨的实验设计，否则相关系数仅能提示关联，不能证明因果。

陷阱二：忽视线性假设。一个接近0的皮尔逊相关系数可能意味着没有线性关系，但可能存在强烈的曲线关系（如U型）。始终结合图形分析。

陷阱三：受异常值过度影响。单个极端点可能显著扭曲皮尔逊相关系数。在报告前，务必检查数据中是否存在有影响的异常点。

陷阱四：忽略群体异质性。将不同质的数据混合计算，可能得到虚假的相关或掩盖真实的相关。
例如，分性别、年龄段看，可能呈现不同的相关模式。

陷阱五：仅依赖统计显著性。在大样本下，即使非常微弱（如|r|=0.05）的相关也可能在统计上显著（p<0.05），但这种相关可能毫无实际意义。应同时关注相关系数的效应量（即r的绝对值大小）。