SPSS相关分析完整教程
什么是相关分析?
相关分析是一种统计方法,用于衡量两个或多个连续变量之间关系的强度和方向。

- 强度:关系有多紧密?通常用相关系数
r的绝对值大小来表示,范围在 -1 到 +1 之间,绝对值越接近1,表示关系越强;越接近0,表示关系越弱。 - 方向:关系是正向还是负向?
- 正相关:一个变量增加,另一个变量也倾向于增加。
r为正值 (0 到 +1)。 - 负相关:一个变量增加,另一个变量却倾向于减少。
r为负值 (-1 到 0)。
- 正相关:一个变量增加,另一个变量也倾向于增加。
示例:
- 正相关:身高和体重通常是正相关的(身高越高,体重往往越重)。
- 负相关:学习游戏的时间和考试成绩通常是负相关的(玩游戏时间越长,考试成绩可能越低)。
相关分析的类型
SPSS中最常用的相关分析是 皮尔逊相关系数,但它并非万能,选择哪种方法取决于你的数据类型。
| 分析方法 | 适用数据类型 | 说明 |
|---|---|---|
| 皮尔逊相关 | 连续变量 (如身高、体重、温度、分数) | 最常用的方法,假设数据是正态分布的线性关系。 |
| 斯皮尔曼等级相关 | 有序变量 或 非正态分布的连续变量 | 不要求正态分布,计算的是变量排序后的秩次之间的相关性。 |
| 肯德尔等级相关 | 有序变量,尤其适合小样本或存在大量相同“秩”的数据 | 也是基于秩次,被认为比斯皮尔曼更稳健,但计算值通常较小。 |
本教程主要讲解最常用的皮尔逊相关分析。
前提条件
在进行皮尔逊相关分析前,需要检查你的数据是否满足以下前提条件:

- 线性关系:两个变量之间的关系应该是线性的,可以通过绘制散点图来直观判断,如果点云呈椭圆形或直线状,则存在线性关系;如果是曲线形(如U型),则不宜使用皮尔逊相关。
- 变量为连续变量:两个变量都应该是数值型变量。
- 正态分布:两个变量都应近似服从正态分布,可以通过直方图或正态性检验(如Shapiro-Wilk检验)来检查,如果数据严重偏离正态,应考虑使用斯皮尔曼相关。
- 异常值:极端的异常值会严重影响相关系数的结果,可以通过散点图识别异常值,并决定是否需要剔除或进行转换。
SPSS操作步骤:以皮尔逊相关为例
假设我们有一个数据集,包含三个变量:学习时长、考试成绩 和 每日睡眠时间,我们想分析它们两两之间的关系。
步骤 1:打开数据文件
打开SPSS,并加载你的数据文件(.sav格式)。
步骤 2:进入相关分析对话框
- 点击顶部菜单栏的
分析。 - 在下拉菜单中选择
相关->双变量...。
步骤 3:选择变量

- 在弹出的“双变量相关”对话框中,从左侧的变量列表中,将你想要分析的变量(
学习时长、考试成绩、每日睡眠时间)移动到右侧的变量框中。
步骤 4:设置相关分析选项
相关系数:默认勾选皮尔逊,这是我们本次教程的重点,如果需要,可以同时勾选斯皮尔曼。显著性检验:双尾检验:当你不确定相关方向是正是负时使用(最常用)。单尾检验:当你有明确的理论预期方向时使用(你确信学习时长和成绩是正相关的)。
标记显著性相关:强烈建议勾选!这会用 号在结果表格中显著相关的系数旁进行标记,非常直观。- 表示在 0.05 水平上显著(p < 0.05)。
- 表示在 0.01 水平上显著(p < 0.01)。
选项:点击此按钮,可以设置更多细节。- 在“统计”部分,可以勾选
均值和标准差,这会输出每个变量的描述性统计信息,非常有用。 - 可以勾选
叉积偏差和协方差,这些是更高级的统计量。 - 在“缺失值”部分,通常选择
按对排除个案(默认),即计算某一对相关时,只使用这两个变量都有完整数据的个案。
- 在“统计”部分,可以勾选
步骤 5:运行分析
设置完成后,点击 确定,SPSS将输出分析结果。
结果解读
SPSS会输出两个主要表格:描述性统计表和相关系数表。
表格 1:描述性统计
| 均值 | 标准差 | N | |
|---|---|---|---|
| 学习时长 | 50 | 23 | 30 |
| 考试成绩 | 90 | 45 | 30 |
| 每日睡眠时间 | 20 | 05 | 30 |
- 解读:这个表格简单展示了每个变量的平均数、标准差和样本量,这有助于你初步了解数据的分布情况。
表格 2:相关性矩阵
| 学习时长 | 考试成绩 | 每日睡眠时间 | |
|---|---|---|---|
| 学习时长 | 1 | .875 | -.512 |
| .000 | .005 | ||
| 考试成绩 | .875 | 1 | -.234 |
| .000 | .217 | ||
| 每日睡眠时间 | -.512 | -.234 | 1 |
| .005 | .217 |
如何解读这个表格?
- 对角线为1:每个变量与自身的相关系数是1,这是完全正相关,符合逻辑。
- 对称矩阵:表格是对称的。“学习时长”与“考试成绩”的相关系数(.875)与“考试成绩”与“学习时长”的相关系数(.875)是相同的。
- 解读每个单元格:
- 单元格 (学习时长, 考试成绩):
- 相关系数:
r = .875,这是一个强正相关,学习时间越长,考试成绩越高。 - 显著性 p值:
p = .000,这个值小于 0.05,表明这种相关性在统计学上是显著的,也就是说,我们几乎可以肯定,在总体中学习时长和成绩也存在正相关关系。
- 相关系数:
- 单元格 (学习时长, 每日睡眠时间):
- 相关系数:
r = -.512,这是一个中等强度的负相关,学习时间越长,睡眠时间越少。 - 显著性 p值:
p = .005,小于 0.05,相关性显著。
- 相关系数:
- 单元格 (考试成绩, 每日睡眠时间):
- 相关系数:
r = -.234,这是一个弱负相关。 - 显著性 p值:
p = .217,大于 0.05,相关性不显著,这意味着我们没有足够的证据表明“睡眠时间”和“考试成绩”之间存在线性关系。
- 相关系数:
- 单元格 (学习时长, 考试成绩):
可视化:绘制散点图
相关分析的结果最好用散点图来可视化,这能帮助你直观地看到关系形态。
操作步骤:
- 点击
图形->图表构建程序...。 - 在“选择自”区域,选择
散点图/点图。 - 将第一个散点图模板拖拽到预览区域。
- 将一个变量(如
学习时长)拖拽到X轴。 - 将另一个变量(如
考试成绩)拖拽到Y轴。 - 点击
确定。
解读散点图:
- 如果点从左下到右上大致呈椭圆形或直线分布,说明存在正相关。
- 如果点从左上到右下大致呈椭圆形或直线分布,说明存在负相关。
- 如果点云呈圆形或无规律分布,说明没有线性相关。
- 注意观察是否有远离点群的异常值。
重要注意事项
- 相关不等于因果:这是统计学中最重要的原则之一!
- 示例:冰淇淋销量和溺水人数高度正相关,但我们不能说“吃冰淇淋导致溺水”,是“炎热天气”这个第三方变量同时导致了冰淇淋销量增加和更多人去游泳(从而增加溺水风险)。
- 相关分析只能告诉你“两件事有关联”,但不能告诉你“一件事是另一件事的原因”。
- 警惕假性相关:当两个变量都受第三个变量影响时,可能会产生假性相关。
- 相关系数的强弱判断(经验法则):
|r| >= 0.7:强相关3 <= |r| < 0.7:中等相关|r| < 0.3:弱相关或无相关
- 选择正确的分析方法:根据数据类型选择皮尔逊或斯皮尔曼相关。
- 检查前提条件:线性、正态性、异常值。
- SPSS操作:
分析->相关->双变量,选择变量并设置选项。 - 解读结果:重点关注相关系数
r和显著性p值。 - 可视化:绘制散点图辅助理解。
- 牢记原则:相关 ≠ 因果,避免过度解读。
希望这份详细的教程能帮助你熟练掌握SPSS的相关分析!如果你有具体的数据或遇到问题,可以随时提问。
