news 2026/5/1 7:28:10

随机信号篇---相关系数

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
随机信号篇---相关系数

核心比喻:两个人的关系亲密程度

想象你在观察班上小明小红的关系:

场景设定

  • 连续5天记录他们的互动次数

  • 小明主动找小红的次数:[2, 5, 3, 6, 4]次/天

  • 小红主动找小明的次数:[3, 6, 4, 7, 5]次/天

问题:他们的互动模式有多相似?


1. 相关系数是什么?

一句话定义

相关系数是一个数字,衡量两个变量一起变化的程度和方向

关键特性

  • 范围:-1 到 1 之间

  • 方向

    • 正数:同向变化(你多我也多)

    • 负数:反向变化(你多我少)

    • :没有线性关系

  • 强度

    • 越接近 ±1,关系越强

    • 越接近 0,关系越弱


2. 三种直观理解方式

方式一:跳舞的比喻

  • 相关系数 = 1:完美双人舞(完全同步)

  • 相关系数 = 0.8:基本合拍,偶尔错步

  • 相关系数 = 0:各跳各的,没有配合

  • 相关系数 = -0.8:镜像跳舞(你进我退)

方式二:散步的比喻

  • 相关系数 = 1:两人并排走,步调完全一致

  • 相关系数 = 0:一个人逛街,一个人跑步,各走各的

  • 相关系数 = -1:一人向东,一人向西,速度相同

方式三:成绩的比喻(回到小明小红)

我们把数据画出来:

天数: 1 2 3 4 5 小明: 2 5 3 6 4 小红: 3 6 4 7 5

肉眼观察

  • 第1天:小明2次,小红3次

  • 第2天:小明5次,小红6次

  • 小明高的时候,小红也高

  • 小明低的时候,小红也低

  • 看起来是正相关!


3. 相关系数怎么算?(无需公式恐惧)

让我们一步步手工计算小明和小红的相关系数。

第一步:画个图,找中心

  1. 计算平均值:

    • 小明平均:(2+5+3+6+4)/5 =4次

    • 小红平均:(3+6+4+7+5)/5 =5次

  2. 想象坐标系:

    • 横轴:小明的次数

    • 纵轴:小红的次数

    • 中心点:(4, 5)

第二步:看每个点偏离中心的情况

第一天:小明2次(比平均少2),小红3次(比平均少2) 第二天:小明5次(比平均多1),小红6次(比平均多1) 第三天:小明3次(比平均少1),小红4次(比平均少1) 第四天:小明6次(比平均多2),小红7次(比平均多2) 第五天:小明4次(平均),小红5次(平均)

发现规律:小明偏离的方向和大小 = 小红偏离的方向和大小!

第三步:计算相关系数的核心思想

相关系数 =“他们偏离的同步程度”

计算三个关键量:

1. 小明的波动程度(方差)
(2-4)² + (5-4)² + (3-4)² + (6-4)² + (4-4)² = (-2)² + (1)² + (-1)² + (2)² + (0)² = 4 + 1 + 1 + 4 + 0 = 10
2. 小红的波动程度
(3-5)² + (6-5)² + (4-5)² + (7-5)² + (5-5)² = (-2)² + (1)² + (-1)² + (2)² + (0)² = 4 + 1 + 1 + 4 + 0 = 10
3. 两人波动的“配合程度”(协方差)
(2-4)×(3-5) + (5-4)×(6-5) + (3-4)×(4-5) + (6-4)×(7-5) + (4-4)×(5-5) = (-2)×(-2) + (1)×(1) + (-1)×(-1) + (2)×(2) + (0)×(0) = 4 + 1 + 1 + 4 + 0 = 10

第四步:标准化得到相关系数

配合程度 10 相关系数 = ——————————————— = ———————————— = 1 √(小明波动×小红波动) √(10×10)

结论:相关系数 = 1,完全正相关!


4. 相关系数结果解读指南

相关系数数值表

相关系数ρ关系强度生活例子
0.8 ~ 1.0极强正相关身高和体重
0.6 ~ 0.8强正相关学习时间和成绩
0.4 ~ 0.6中等正相关广告投入和销量
0.2 ~ 0.4弱正相关降雨量和伞销量
0.0 ~ 0.2极弱或无相关鞋码和智商
0.0无线性相关圆的半径和角度
-0.2 ~ 0.0极弱负相关年龄和玩具购买
-0.4 ~ -0.2弱负相关练习时间和错误数
-0.6 ~ -0.4中等负相关车速和到达时间
-0.8 ~ -0.6强负相关室内温度和取暖费
-1.0 ~ -0.8极强负相关商品价格和需求量

重要提醒

  • 相关系数只测线性关系

    # 这个例子中: X = [-2, -1, 0, 1, 2] Y = [4, 1, 0, 1, 4] # Y = X² # 相关系数 = 0! # 但有明显的抛物线关系(非线性)
  • 相关 ≠ 因果

    • 冰淇淋销量和溺水人数正相关

    • 不是因为冰淇淋导致溺水!

    • 真实原因:夏天(第三变量)


5. 相关系数在现实中的应用

应用1:学习成绩分析

老师发现:

  • 数学和物理成绩:ρ = 0.85(强相关)

  • 数学和语文成绩:ρ = 0.35(弱相关)

  • 数学和体育成绩:ρ = -0.10(基本无关)

结论:数学好的学生,物理通常也好,但和语文、体育关系不大。

应用2:股票投资

投资者发现:

  • 股票A和股票B:ρ = 0.9(高度相关)

  • 股票A和黄金:ρ = -0.6(中等负相关)

策略:同时持有A和黄金可以对冲风险。

应用3:健康研究

研究发现:

  • 吸烟量和肺癌风险:ρ = 0.7(强正相关)

  • 运动量和心脏病风险:ρ = -0.65(强负相关)

建议:少吸烟、多运动。


6. 相关系数的“兄弟姐妹”

皮尔逊相关系数(最常用)

  • 我们刚才算的就是这个

  • 适用于线性关系连续数据正态分布

斯皮尔曼秩相关系数

  • 处理单调但非线性关系

  • 把数据排序后计算

  • 例子:Y随X增加而增加,但不是直线

肯德尔秩相关系数

  • 类似斯皮尔曼,但计算方式不同

  • 对小样本更稳健

简单选择指南

  • 数据看起来是直线? → 用皮尔逊

  • 数据看起来一起增减但不是直线? → 用斯皮尔曼

  • 不确定或样本小? → 用肯德尔


7. 相关系数计算速查表

手动计算四步法

  1. 算均值x̄, ȳ

  2. 算偏差(xᵢ - x̄), (yᵢ - ȳ)

  3. 算三个和

    • Sxx = Σ(xᵢ - x̄)²

    • Syy = Σ(yᵢ - ȳ)²

    • Sxy = Σ(xᵢ - x̄)(yᵢ - ȳ)

  4. 代公式

    Sxy ρ = ——————— √(Sxx·Syy)

计算器/Excel方法

  • Excel:=CORREL(A列, B列)

  • Python:numpy.corrcoef(x, y)[0,1]

  • 计算器:统计模式 → 输入数据 → 按r


8. 常见误解与真相

误解1:ρ=0.8 意味着“80%相关”

真相:ρ=0.8是非常强的相关,但不是百分比。ρ²=0.64表示一个变量的变化能解释另一个变量64%的变化。

误解2:ρ越大越好

真相:看情况!如果预测地震,我们希望ρ接近1;如果投资多元化,我们希望ρ接近0(不相关资产)。

误解3:ρ显著≠关系强

真相:样本很大时,ρ=0.1也可能统计显著,但实际意义很小。

误解4:ρ=1 意味着数据点全在直线上

真相:完全正确!ρ=1或-1时,所有点都在一条直线上。


9. 相关系数决策树


10. 一句话记住相关系数

“相关系数是关系的温度计:

  • 正数是温暖(一起变化)

  • 负数是寒冷(反向变化)

  • 零度是室温(没啥关系)

  • 绝对值大小是温度高低(关系强弱)”

记住:相关系数就像关系的指纹,它能快速告诉你两个变量是如何共舞的,但不会告诉你谁在领舞(因果),也不会告诉你舞蹈的复杂步法(非线性关系)。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!