杰瑞科技汇

SPSS如何做相关分析?

SPSS相关分析完整教程

什么是相关分析?

相关分析是一种统计方法,用于衡量两个或多个连续变量之间关系的强度和方向

SPSS如何做相关分析?-图1
(图片来源网络,侵删)
  • 强度:关系有多紧密?通常用相关系数 r 的绝对值大小来表示,范围在 -1 到 +1 之间,绝对值越接近1,表示关系越强;越接近0,表示关系越弱。
  • 方向:关系是正向还是负向?
    • 正相关:一个变量增加,另一个变量也倾向于增加。r 为正值 (0 到 +1)。
    • 负相关:一个变量增加,另一个变量却倾向于减少。r 为负值 (-1 到 0)。

示例

  • 正相关:身高和体重通常是正相关的(身高越高,体重往往越重)。
  • 负相关:学习游戏的时间和考试成绩通常是负相关的(玩游戏时间越长,考试成绩可能越低)。

相关分析的类型

SPSS中最常用的相关分析是 皮尔逊相关系数,但它并非万能,选择哪种方法取决于你的数据类型。

分析方法 适用数据类型 说明
皮尔逊相关 连续变量 (如身高、体重、温度、分数) 最常用的方法,假设数据是正态分布的线性关系。
斯皮尔曼等级相关 有序变量非正态分布的连续变量 不要求正态分布,计算的是变量排序后的秩次之间的相关性。
肯德尔等级相关 有序变量,尤其适合小样本或存在大量相同“秩”的数据 也是基于秩次,被认为比斯皮尔曼更稳健,但计算值通常较小。

本教程主要讲解最常用的皮尔逊相关分析。


前提条件

在进行皮尔逊相关分析前,需要检查你的数据是否满足以下前提条件:

SPSS如何做相关分析?-图2
(图片来源网络,侵删)
  1. 线性关系:两个变量之间的关系应该是线性的,可以通过绘制散点图来直观判断,如果点云呈椭圆形或直线状,则存在线性关系;如果是曲线形(如U型),则不宜使用皮尔逊相关。
  2. 变量为连续变量:两个变量都应该是数值型变量。
  3. 正态分布:两个变量都应近似服从正态分布,可以通过直方图正态性检验(如Shapiro-Wilk检验)来检查,如果数据严重偏离正态,应考虑使用斯皮尔曼相关。
  4. 异常值:极端的异常值会严重影响相关系数的结果,可以通过散点图识别异常值,并决定是否需要剔除或进行转换。

SPSS操作步骤:以皮尔逊相关为例

假设我们有一个数据集,包含三个变量:学习时长考试成绩每日睡眠时间,我们想分析它们两两之间的关系。

步骤 1:打开数据文件 打开SPSS,并加载你的数据文件(.sav格式)。

步骤 2:进入相关分析对话框

  • 点击顶部菜单栏的 分析
  • 在下拉菜单中选择 相关 -> 双变量...

步骤 3:选择变量

SPSS如何做相关分析?-图3
(图片来源网络,侵删)
  • 在弹出的“双变量相关”对话框中,从左侧的变量列表中,将你想要分析的变量(学习时长考试成绩每日睡眠时间)移动到右侧的 变量 框中。

步骤 4:设置相关分析选项

  • 相关系数:默认勾选 皮尔逊,这是我们本次教程的重点,如果需要,可以同时勾选 斯皮尔曼
  • 显著性检验
    • 双尾检验:当你不确定相关方向是正是负时使用(最常用)。
    • 单尾检验:当你有明确的理论预期方向时使用(你确信学习时长和成绩是正相关的)。
  • 标记显著性相关:强烈建议勾选!这会用 号在结果表格中显著相关的系数旁进行标记,非常直观。
    • 表示在 0.05 水平上显著(p < 0.05)。
    • 表示在 0.01 水平上显著(p < 0.01)。
  • 选项:点击此按钮,可以设置更多细节。
    • 在“统计”部分,可以勾选 均值和标准差,这会输出每个变量的描述性统计信息,非常有用。
    • 可以勾选 叉积偏差和协方差,这些是更高级的统计量。
    • 在“缺失值”部分,通常选择 按对排除个案(默认),即计算某一对相关时,只使用这两个变量都有完整数据的个案。

步骤 5:运行分析 设置完成后,点击 确定,SPSS将输出分析结果。


结果解读

SPSS会输出两个主要表格:描述性统计表和相关系数表。

表格 1:描述性统计

均值 标准差 N
学习时长 50 23 30
考试成绩 90 45 30
每日睡眠时间 20 05 30
  • 解读:这个表格简单展示了每个变量的平均数、标准差和样本量,这有助于你初步了解数据的分布情况。

表格 2:相关性矩阵

学习时长 考试成绩 每日睡眠时间
学习时长 1 .875 -.512
.000 .005
考试成绩 .875 1 -.234
.000 .217
每日睡眠时间 -.512 -.234 1
.005 .217

如何解读这个表格?

  1. 对角线为1:每个变量与自身的相关系数是1,这是完全正相关,符合逻辑。
  2. 对称矩阵:表格是对称的。“学习时长”与“考试成绩”的相关系数(.875)与“考试成绩”与“学习时长”的相关系数(.875)是相同的。
  3. 解读每个单元格
    • 单元格 (学习时长, 考试成绩)
      • 相关系数r = .875,这是一个强正相关,学习时间越长,考试成绩越高。
      • 显著性 p值p = .000,这个值小于 0.05,表明这种相关性在统计学上是显著的,也就是说,我们几乎可以肯定,在总体中学习时长和成绩也存在正相关关系。
    • 单元格 (学习时长, 每日睡眠时间)
      • 相关系数r = -.512,这是一个中等强度的负相关,学习时间越长,睡眠时间越少。
      • 显著性 p值p = .005,小于 0.05,相关性显著
    • 单元格 (考试成绩, 每日睡眠时间)
      • 相关系数r = -.234,这是一个弱负相关
      • 显著性 p值p = .217,大于 0.05,相关性不显著,这意味着我们没有足够的证据表明“睡眠时间”和“考试成绩”之间存在线性关系。

可视化:绘制散点图

相关分析的结果最好用散点图来可视化,这能帮助你直观地看到关系形态。

操作步骤:

  1. 点击 图形 -> 图表构建程序...
  2. 在“选择自”区域,选择 散点图/点图
  3. 将第一个散点图模板拖拽到预览区域。
  4. 将一个变量(如 学习时长)拖拽到 X轴
  5. 将另一个变量(如 考试成绩)拖拽到 Y轴
  6. 点击 确定

解读散点图:

  • 如果点从左下到右上大致呈椭圆形或直线分布,说明存在正相关
  • 如果点从左上到右下大致呈椭圆形或直线分布,说明存在负相关
  • 如果点云呈圆形或无规律分布,说明没有线性相关
  • 注意观察是否有远离点群的异常值

重要注意事项

  1. 相关不等于因果:这是统计学中最重要的原则之一!
    • 示例:冰淇淋销量和溺水人数高度正相关,但我们不能说“吃冰淇淋导致溺水”,是“炎热天气”这个第三方变量同时导致了冰淇淋销量增加和更多人去游泳(从而增加溺水风险)。
    • 相关分析只能告诉你“两件事有关联”,但不能告诉你“一件事是另一件事的原因”。
  2. 警惕假性相关:当两个变量都受第三个变量影响时,可能会产生假性相关。
  3. 相关系数的强弱判断(经验法则)
    • |r| >= 0.7:强相关
    • 3 <= |r| < 0.7:中等相关
    • |r| < 0.3:弱相关或无相关

  1. 选择正确的分析方法:根据数据类型选择皮尔逊或斯皮尔曼相关。
  2. 检查前提条件:线性、正态性、异常值。
  3. SPSS操作分析 -> 相关 -> 双变量,选择变量并设置选项。
  4. 解读结果:重点关注相关系数 r显著性 p
  5. 可视化:绘制散点图辅助理解。
  6. 牢记原则相关 ≠ 因果,避免过度解读。

希望这份详细的教程能帮助你熟练掌握SPSS的相关分析!如果你有具体的数据或遇到问题,可以随时提问。

分享:
扫描分享到社交APP
上一篇
下一篇