SPSS卡方检验完整教程
第一部分:卡方检验是什么?(核心概念)
卡方检验是一种非参数检验方法,主要用于分析分类变量之间的关系,它不关心数据的均值或方差,只关心不同类别之间的频数是否存在显著差异。

最常见的两种卡方检验应用场景是:
-
拟合优度检验
- 目的:检验一个分类变量的实际观测频数是否与某个理论或期望的频数分布一致。
- 例子:掷一个骰子60次,检验每个点数(1-6)出现的次数是否都是10次(即骰子是否均匀)。
-
独立性检验
- 目的:检验两个分类变量之间是否相互独立,这是最常用的卡方检验。
- 例子:检验“性别”(男/女)与“偏好颜色”(红/蓝/绿)之间是否存在关联,换句话说,不同性别的颜色偏好分布是否相同。
本教程将重点讲解最常用的独立性检验。

第二部分:数据准备与录入
在SPSS中进行卡方检验,数据格式至关重要,最常用的格式是个案模式。
假设场景: 我们想研究“吸烟状况”(不吸烟、偶尔吸烟、经常吸烟)和“是否患慢性病”(是、否)之间是否存在关联。
数据格式要求: 你需要两列数据,一列代表一个分类变量。
| 变量名 | 变量类型 | 值 | |
|---|---|---|---|
| Smoking | 数值 | 吸烟状况 | 1=不吸烟, 2=偶尔吸烟, 3=经常吸烟 |
| Disease | 数值 | 是否患慢性病 | 1=否, 2=是 |
如何录入数据: 你的SPSS数据视图看起来会是这样,每一行代表一个被调查者。

| Smoking | Disease |
|---|---|
| 1 | 1 |
| 1 | 1 |
| 2 | 1 |
| 3 | 2 |
| 1 | 1 |
| 2 | 2 |
| ... | ... |
重要提示:这种格式下,你无法直接看到交叉表的频数,你需要先对数据进行加权,或者在分析时直接使用“加权个案”功能,但对于原始数据,最直接的方法是使用交叉表功能进行分析,它会自动计算频数。
第三部分:SPSS操作步骤 (以独立性检验为例)
假设你已经按照第二部分的要求录入了数据。
步骤 1:打开“交叉表”对话框
- 点击顶部菜单栏的 分析。
- 将鼠标悬停在 描述统计 上。
- 在弹出的菜单中,点击 交叉表。
步骤 2:设置变量
- 在弹出的“交叉表”对话框中:
- 将你的第一个分类变量(吸烟状况”
[Smoking])选入 行 框。 - 将你的第二个分类变量(是否患慢性病”
[Disease])选入 列 框。 - (可选)可以将一个分类变量选入 层 框,用于进行分层分析。
- 将你的第一个分类变量(吸烟状况”
步骤 3:设置“卡方”检验
- 点击右上角的 统计... 按钮。
- 在新弹出的“交叉表:统计”对话框中:
- 勾选 卡方。
- (强烈推荐)同时勾选 Phi 和 Cramer's V,它们是衡量关联强度的指标。
- 点击 继续。
步骤 4:设置期望频数
卡方检验有一个重要前提:所有单元格的期望频数应大于5,SPSS可以帮你检查这个条件。
- 返回到“交叉表”主对话框,点击 单元格... 按钮。
- 在“交叉表:单元格显示”对话框中:
- 在 计数 区域,确保 观测 已被勾选(这是默认值)。
- 在 百分比 区域,可以根据需要勾选 行、列 或 总计,方便后续解读。
- 在 残差 区域,勾选 调整的标准化,这有助于找出哪些单元格对卡方值的贡献最大。
- 最重要的是,在 期望值 区域,勾选 显示,这样在输出结果中你就能看到每个单元格的期望频数。
- 点击 继续。
步骤 5:运行分析
- 返回到“交叉表”主对话框,点击 确定。
SPSS将开始计算并输出结果。
第四部分:结果解读
这是最关键的一步,你需要仔细阅读输出窗口中的表格。
表格1:交叉表
这是你的基础数据,显示了每个组合的实际观测频数和百分比。
| 是否患慢性病 * 吸烟状况 交叉制表 | ||||
|---|---|---|---|---|
| 是否患慢性病 | 总计 | |||
| 否 | 是 | |||
| 吸烟状况 | 不吸烟 | 计数 | 150 | 20 |
| % 在 吸烟状况 内 | 2% | 8% | ||
| 偶尔吸烟 | 计数 | 80 | 30 | |
| % 在 吸烟状况 内 | 7% | 3% | ||
| 经常吸烟 | 计数 | 40 | 50 | |
| % 在 吸烟状况 内 | 4% | 6% | ||
| 总计 | 计数 | 270 | 100 | |
| % | 0% | 0% |
初步观察: 从百分比来看,不吸烟者中患慢性病的比例只有11.8%,而经常吸烟者中高达55.6,看起来两者似乎有关联。
表格2:卡方检验
这是核心结果表。
| 值 | df | 渐进 Sig. (双侧) | 精确 Sig. (双侧) | 精确 Sig. (单侧) | Pearson 卡方 | 有效性 N (列表状态) |
|---|---|---|---|---|---|---|
| 345 | 2 | .002 | 370 | |||
| 789 | 1 | .000 | ||||
| ... | ... | ... | ... | ... | ... | ... |
如何解读此表:
-
关注第一行:Pearson 卡方
- 值:这就是卡方统计量,这里是
345。 - df:自由度,计算公式为
(行数-1) * (列数-1),这里是(3-1) * (2-1) = 2。 - 渐进 Sig. (双侧):这就是P值,这里是
002。
- 值:这就是卡方统计量,这里是
-
做出统计决策
- 设定显著性水平 α = 0.05 (这是学术界通用的标准)。
- 比较P值与α:
P = 0.002,α = 0.05,因为002 < 0.05,所以P值小于显著性水平。
-
得出结论
- 统计结论:我们拒绝原假设(H₀:吸烟状况和是否患慢性病相互独立),接受备择假设(H₁:吸烟状况和是否患慢性病之间存在关联)。
- 实际结论:可以认为,吸烟状况与是否患慢性病之间存在显著的相关性。
表格3:对称度量
这个表格告诉你关联的强度有多大。
| 值 | 近似值 Sig. | |
|---|---|---|
| Phi | .182 | .002 |
| Cramer's V | .182 | .002 |
| 列联系数 | .178 | .002 |
如何解读此表:
- Phi 和 Cramer's V:这两个是衡量关联强度的指标,取值范围在0到1之间。
- 0表示无关联。
- 1表示完全关联。
- 值越大,关联性越强。
- 解读:这里的
Cramer's V = 0.182,根据科恩的粗略判断标准:- 1:弱关联
- 3:中等关联
- 5:强关联
182表明吸烟状况和慢性病之间存在较弱的关联性,虽然统计上是显著的,但这种关联的实际影响强度并不大。
第五部分:注意事项与常见问题
-
期望频数 < 5 的问题
- 规则:卡方检验要求交叉表中不超过20%的单元格的期望频数小于5,且没有单元格的期望频数小于1。
- 如何检查:在“单元格”设置中勾选“显示期望值”,然后查看交叉表。
- 如果违反规则怎么办:
- 合并类别:将某些频数太少的类别合并(将“偶尔吸烟”和“经常吸烟”合并为“吸烟”)。
- 使用Fisher精确检验:当样本量很小(例如总N<40)或期望频数很小时,应该使用Fisher精确检验,在SPSS的“卡方检验”对话框中,它通常会自动提供。
-
变量类型错误
- 卡方检验只能用于分类变量(名义变量或有序变量),如果你的变量是连续变量(如年龄、身高),你需要先将其转换为分类变量(分为“青年”、“中年”、“老年”)。
-
相关不等于因果
- 卡方检验只能告诉你两个变量是否有关联,但不能证明一个变量是另一个变量的原因,我们发现吸烟和慢性病有关联,但不能直接断定吸烟导致慢性病,可能存在其他混杂因素(如遗传、生活方式等)。
通过以上步骤,你已经掌握了在SPSS中进行卡方检验的完整流程:
- 明确分析目的:是检验独立性还是拟合优度?
- 正确录入数据:使用个案模式,每个分类变量一列。
- 选择正确路径:
分析->描述统计->交叉表。 - 设置关键选项:在“统计”中勾选“卡方”,在“单元格”中勾选“显示期望值”和“调整的标准化”。
- 解读核心结果:
- 看P值判断是否有关联(显著与否)。
- 看Phi或Cramer's V判断关联的强度(弱、中、强)。
- 注意前提条件:检查期望频数,必要时合并类别或使用Fisher精确检验。
希望这份详细的教程能帮助你顺利掌握SPSS卡方检验!
