TCGA数据库怎么用？新手入门指南看这里！-杰瑞科技汇

TCGA数据库使用教程：从入门到精通

TCGA（The Cancer Genome Atlas，癌症基因组图谱）是一个由美国国家癌症研究所发起的大型项目，旨在全面表征多种癌症的基因组、转录组、表观遗传组等多个层面的分子变化，它为全球的癌症研究者提供了海量的、公开的、经过高质量处理的多组学数据。

（图片来源网络，侵删）

本教程将分为以下几个部分：

第一部分：TCGA简介与核心概念
第二部分：官方数据门户 - GDC (Genomic Data Commons)
第三部分：非官方数据下载与处理工具
第四部分：临床数据获取
第五部分：数据格式解析
第六部分：实战案例与进阶学习

第一部分：TCGA简介与核心概念

在开始之前,理解几个核心概念至关重要：

项目: TCGA按癌症类型组织数据，BRCA (乳腺癌), LUAD (肺腺癌), COAD (结肠癌) 等,你的研究第一步就是确定你要分析的项目。
数据类型: TCGA提供了多种“组学”数据，每种都有其独特的文件后缀。
- 基因组学: WGS (全基因组测序), WXS (外显子组测序)，文件后缀通常为 .maf (突变注释格式), vcf (变异呼叫格式)。
- 转录组学: RNA-Seq (RNA测序)，文件后缀为 .htseq_counts (原始计数), .fpkm 或 .fpkm_uq (FPKM标准化表达量), .tpm (TPM标准化表达量)。
- 表观遗传学: Methylation (甲基化), ChIP-Seq (染色质免疫共沉淀测序)。
- 临床数据: Clinical (患者的临床信息，如年龄、性别、分期、生存时间等)。
数据层级:
- Level 1 (原始数据): 仪器直接输出的原始数据（如BAM文件），体积巨大,通常不直接使用。
- Level 2 (处理后数据): 经过初步比对和处理的中间数据。
- Level 3 (分析数据): 经过标准化和分析的最终数据，适合直接用于下游分析。FPKM/TPM 表达矩阵、MAF 突变文件等。我们通常直接下载 Level 3 的数据。

第二部分：官方数据门户 - GDC (Genomic Data Commons)

GDC 是目前官方推荐的数据访问和下载门户，取代了旧的 TCGA Data Portal，它功能强大,但界面可能对新手有些复杂。

1 GDC 数据探索器

这是浏览和下载数据的主要界面。

（图片来源网络，侵删）

访问网址: https://portal.gdc.cancer.gov/

2 下载步骤（以下载BRCA的RNA-Seq FPKM数据为例）

进入数据探索器:

打开 GDC Portal，点击顶部的 "Explore" -> "Data".
筛选项目:
- 在左侧的 "Filters" 面板中，展开 "Cases" -> "Cases".
- 在 "Project" 下拉菜单中，选择你感兴趣的项目，TCGA-BRCA。
筛选数据类型:
- 在左侧 "Filters" 面板中，展开 "Files" -> "Data Category".
- 选择 Transcriptome Profiling.
- "Data Type" 会自动出现，选择 Gene Expression Quantification.
筛选文件格式:
- 继续在 "Files" 中，展开 "Data Format".
- 选择 FPKM-UQ (或你需要的格式，如 HTSeq - Counts)。
查看并选择文件:
- 中间的文件列表会显示所有符合条件的文件,每个文件都对应一个样本。
- 你可以直接点击文件名查看详细信息。
- 批量下载: 点击列表上方的 "Cart" (购物车) 图标,将你需要的所有文件加入购物车。
下载文件:
- 点击右上角的 "Cart" 图标进入购物车。
- 你可以在这里再次确认文件列表。
- 点击 "Download" 按钮，GDC 会生成一个 manifest 文件（一个包含所有下载链接的文本文件）。
- 下载 manifest 文件后，你需要使用 GDC 提供的 Data Transfer Tool 来下载所有文件，这个工具是一个命令行工具，支持断点续传,适合下载大量数据。

注意： 直接在浏览器里点击下载大文件非常容易失败，强烈推荐使用 Data Transfer Tool。

3 GDC Data Transfer Tool 使用

下载和安装:
- 访问 GDC Data Transfer Tool 页面：https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
- 根据你的操作系统下载相应的版本,并解压。
下载 Manifest 文件:
- 按照上述步骤，在 GDC Portal 中将文件加入购物车并下载 .manifest 文件。
运行下载命令:
- 打开终端 (Windows下是CMD或PowerShell)，进入到你解压 Data Transfer Tool 的目录。
- 运行以下命令：
```
gdc-client download -m /path/to/your/download_manifest.txt
```
- 这里的 /path/to/your/download_manifest.txt 是你刚刚下载的 manifest 文件的完整路径。
- 工具会自动创建一个文件夹,并将所有文件下载到其中。

第三部分：非官方数据下载与处理工具

对于不熟悉命令行的用户，或者需要快速获取特定格式的矩阵数据（如表达矩阵）,非官方工具是更好的选择。

1 UCSC Xena

Xena 是一个基于 Web 的强大平台，它已经将 TCGA 数据预处理成了可以直接分析的矩阵格式,并且提供了交互式数据探索和可视化工具。

访问网址: https://xena.ucsc.edu/

优点:

无需下载: 可以直接在浏览器中进行简单的相关性分析、生存分析、绘制热图等。
格式友好: 数据已经是表达矩阵、临床信息矩阵，可以直接用于 R/Python 分析。
包含多种数据集: 除了TCGA,还包含其他公共数据集。

使用方法:

点击 "Datasets" -> "Public Datasets".
找到 "TCGA" 项目，然后选择你感兴趣的癌症类型（如 "TCGA BRCA"）。
你会看到各种预定义的数据集，如 "RNAseq - FPKM-UQ", "RNAseq - Counts", "Clinical ( curated )" 等。
点击 "Add to cart" 将数据集加入你的工作空间。
在 "Your Cart" 中,你可以选择数据集进行探索和分析。

2 TCGAbiolinks (R/Bioconductor)

如果你是 R 语言用户，TCGAbiolinks 是一个功能极其强大的 R 包，它可以一站式完成数据查询、下载、处理和初步分析。

安装:

if (!require("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("TCGAbiolinks")

基本使用流程:

查询数据:

library(TCGAbiolinks)
# 查询BRCA项目中所有可用样本的信息
query <- GDCquery(project = "TCGA-BRCA",
                  data.category = "Transcriptome Profiling",
                  data.type = "Gene Expression Quantification",
                  workflow.type = "STAR - Counts")
GDCquery(query)

下载数据:

# 将数据下载到指定目录
GDCdownload(query, directory = "my_tcga_data")

处理数据:

# 将下载的数据转换为表达矩阵
data <- GDCprepare(query, directory = "my_tcga_data")
# 'data' 现在是一个 SummarizedExperiment 对象，可以直接用于下游分析
expr_matrix <- assay(data) # 获取表达矩阵
colData(data) # 获取样本信息

TCGAbiolinks 的优点是脚本化、可重复，并且与 R 生态无缝集成,是进行批量分析的首选工具。

第四部分：临床数据获取

临床数据对于理解分子特征与临床表型（如生存、分期）的关系至关重要，临床数据通常以 .tsv 或 .xlsx 格式提供。

获取方式:

通过 GDC:
- 在 GDC Data Explorer 中，筛选 Cases -> Clinical。
- 选择 TCGA-BRCA 项目，然后点击 "Cart" -> "Download"，下载的 clinical.tsv 文件就包含了所有临床信息。
通过 Xena:
- 在 Xena 中，将 TCGA BRCA 项目下的 Clinical ( curated ) 数据集加入购物车,即可获得格式化的临床数据矩阵。
通过 cBioPortal:
- cBioPortal 是另一个优秀的癌症数据门户网站，它整合了TCGA数据,并提供了友好的临床数据浏览和下载界面。
- 访问 https://www.cbioportal.org/，选择一个研究（如 "TCGA, Pan-Cancer Atlas"），然后点击 "Files" 标签页，可以下载包含临床数据的 data_clinical_sample.txt 和 data_clinical_patient.txt 文件。

第五部分：数据格式解析

了解常见文件格式有助于你正确处理数据。

.tsv (Tab-Separated Values): 最常见的表格格式，可以用 Excel 或文本编辑器打开，GDC 和 Xena 的数据多用此格式。
.fpkm / .tpm: RNA-Seq 表达量，FPKM 和 TPM 是两种标准化的表达量，TPM 更适合在不同基因间进行比较。
.htseq_counts: 原始的 RNA-Seq 计数数据，是进行差异表达分析（如使用 DESeq2, edgeR）的首选输入。
.maf (Mutation Annotation Format): 突变文件，详细记录了每个样本中基因发生突变的位置、类型、氨基酸变化等信息，可以用 maftools 等 R 包进行可视化分析。
.cnv (Copy Number Variation): 拷贝数变异文件，通常以 .seg 格式存在,记录了基因组上不同区域的拷贝数变化。

第六部分：实战案例与进阶学习

一个简单的分析流程 (使用 R 和 TCGAbiolinks)

目标: 获取 TCGA-LUAD (肺腺癌) 患者的 RNA-Seq 计数数据和临床数据，并筛选出肿瘤组织和癌旁组织,用于后续的差异表达分析。

# 1. 加载包
library(TCGAbiolinks)
library(SummarizedExperiment)
library(dplyr)
# 2. 查询并下载数据
query <- GDCquery(project = "TCGA-LUAD",
                  data.category = "Transcriptome Profiling",
                  data.type = "Gene Expression Quantification",
                  workflow.type = "STAR - Counts",
                  # 只下载肿瘤样本，样本类型代码为 "Primary Tumor"
                  sample.type = c("Primary Tumor"))
GDCquery(query)
GDCdownload(query, directory = "LUAD_data")
# 3. 准备数据
data <- GDCprepare(query, directory = "LUAD_data")
# 4. 获取临床数据并合并
clinical <- colData(data)
# 查看样本类型列
head(clinical$sample_type)
# 假设我们只关心 "Primary Tumor" 和 "Solid Tissue Normal"
data <- data[, clinical$sample.type %in% c("Primary Tumor", "Solid Tissue Normal")]
# 5. 获取表达矩阵和临床信息
count_matrix <- assay(data)
clinical_info <- colData(data)
# count_matrix 和 clinical_info 就可以用于差异表达分析、生存分析等后续步骤了

进阶学习资源

GDC 文档: https://docs.gdc.cancer.gov/ - 官方最权威的资料。
TCGAbiolinks 文档: https://bioconductor.org/packages/release/bioc/html/TCGAbiolinks.html - 包含详细的函数说明和教程。
cBioPortal 教程: https://www.cbioportal.org/study?id=luad_tcga - 在线学习如何使用其交互式界面。
视频教程: 在 YouTube 上搜索 "TCGA tutorial" 或 "GDC data download",可以找到很多由大学或研究机构制作的视频教程。

工具/方法	优点	缺点	适用场景
GDC Portal	官方、数据最全、最新	界面复杂，需用命令行工具下载，学习曲线陡峭	需要下载特定、非标准化的数据，或进行最全面的数据探索。
UCSC Xena	无需编程，交互式分析，数据格式友好	可定制性差，无法进行复杂的批量分析	快速探索数据，进行简单的相关性、生存分析，验证初步想法。
TCGAbiolinks (R)	功能强大，脚本化，一站式下载分析	需要R语言基础	进行系统化、可重复的批量数据分析，是科研工作的首选。

对于初学者，建议从 UCSC Xena 开始，快速了解数据，当你需要进行一个完整的、可重复的分析项目时，再深入学习 GDC Portal 和 TCGAbiolinks,祝你科研顺利！

TCGA数据库怎么用？新手入门指南看这里！

TCGA数据库使用教程：从入门到精通

第一部分：TCGA简介与核心概念

第二部分：官方数据门户 - GDC (Genomic Data Commons)

1 GDC 数据探索器

2 下载步骤（以下载BRCA的RNA-Seq FPKM数据为例）

3 GDC Data Transfer Tool 使用

第三部分：非官方数据下载与处理工具

1 UCSC Xena

2 TCGAbiolinks (R/Bioconductor)

第四部分：临床数据获取

获取方式:

第五部分：数据格式解析

第六部分：实战案例与进阶学习

一个简单的分析流程 (使用 R 和 TCGAbiolinks)

进阶学习资源

99ANYc3cd6

Python sort()与lambda用法解析？

儿童手表手机使用教程从哪开始学？

柯尼卡6180e安装教程

宏碁V5471G拆机教程详细步骤有哪些？

Python sklearn RF如何调参提升模型性能？

Java Socket编程实例具体怎么实现？

python中deldeyongfa

autodesk3dsmax教程

PowerPoint教程PPT，如何快速制作专业幻灯片？

Linux shell教程，如何快速入门？

Java Hello World代码为何这样写？

PrettyTable Python 怎么用？

Win7如何正确配置Java环境变量？

oracle 10安装教程

catia2025安装教程

Python datetime模块如何处理日期时间？

TCGA数据库怎么用？新手入门指南看这里！

TCGA数据库使用教程：从入门到精通

第一部分：TCGA简介与核心概念

第二部分：官方数据门户 - GDC (Genomic Data Commons)

1 GDC 数据探索器

2 下载步骤（以下载BRCA的RNA-Seq FPKM数据为例）

3 GDC Data Transfer Tool 使用

第三部分：非官方数据下载与处理工具

1 UCSC Xena

2 TCGAbiolinks (R/Bioconductor)

第四部分：临床数据获取

获取方式:

第五部分：数据格式解析

第六部分：实战案例与进阶学习

一个简单的分析流程 (使用 R 和 TCGAbiolinks)

进阶学习资源

相关推荐

Java Socket编程实例具体怎么实现？