杰瑞科技汇

TCGA数据库怎么用?新手入门指南看这里!

TCGA数据库使用教程:从入门到精通

TCGA(The Cancer Genome Atlas,癌症基因组图谱)是一个由美国国家癌症研究所发起的大型项目,旨在全面表征多种癌症的基因组、转录组、表观遗传组等多个层面的分子变化,它为全球的癌症研究者提供了海量的、公开的、经过高质量处理的多组学数据。

TCGA数据库怎么用?新手入门指南看这里!-图1
(图片来源网络,侵删)

本教程将分为以下几个部分:

  1. 第一部分:TCGA简介与核心概念
  2. 第二部分:官方数据门户 - GDC (Genomic Data Commons)
  3. 第三部分:非官方数据下载与处理工具
  4. 第四部分:临床数据获取
  5. 第五部分:数据格式解析
  6. 第六部分:实战案例与进阶学习

第一部分:TCGA简介与核心概念

在开始之前,理解几个核心概念至关重要:

  • 项目: TCGA按癌症类型组织数据,BRCA (乳腺癌), LUAD (肺腺癌), COAD (结肠癌) 等,你的研究第一步就是确定你要分析的项目。
  • 数据类型: TCGA提供了多种“组学”数据,每种都有其独特的文件后缀。
    • 基因组学: WGS (全基因组测序), WXS (外显子组测序),文件后缀通常为 .maf (突变注释格式), vcf (变异呼叫格式)。
    • 转录组学: RNA-Seq (RNA测序),文件后缀为 .htseq_counts (原始计数), .fpkm.fpkm_uq (FPKM标准化表达量), .tpm (TPM标准化表达量)。
    • 表观遗传学: Methylation (甲基化), ChIP-Seq (染色质免疫共沉淀测序)。
    • 临床数据: Clinical (患者的临床信息,如年龄、性别、分期、生存时间等)。
  • 数据层级:
    • Level 1 (原始数据): 仪器直接输出的原始数据(如BAM文件),体积巨大,通常不直接使用。
    • Level 2 (处理后数据): 经过初步比对和处理的中间数据。
    • Level 3 (分析数据): 经过标准化和分析的最终数据,适合直接用于下游分析。FPKM/TPM 表达矩阵、MAF 突变文件等。我们通常直接下载 Level 3 的数据。

第二部分:官方数据门户 - GDC (Genomic Data Commons)

GDC 是目前官方推荐的数据访问和下载门户,取代了旧的 TCGA Data Portal,它功能强大,但界面可能对新手有些复杂。

1 GDC 数据探索器

这是浏览和下载数据的主要界面。

TCGA数据库怎么用?新手入门指南看这里!-图2
(图片来源网络,侵删)

访问网址: https://portal.gdc.cancer.gov/

2 下载步骤(以下载BRCA的RNA-Seq FPKM数据为例)

  1. 进入数据探索器:

    打开 GDC Portal,点击顶部的 "Explore" -> "Data".

  2. 筛选项目:

    • 在左侧的 "Filters" 面板中,展开 "Cases" -> "Cases".
    • 在 "Project" 下拉菜单中,选择你感兴趣的项目,TCGA-BRCA
  3. 筛选数据类型:

    • 在左侧 "Filters" 面板中,展开 "Files" -> "Data Category".
    • 选择 Transcriptome Profiling.
    • "Data Type" 会自动出现,选择 Gene Expression Quantification.
  4. 筛选文件格式:

    • 继续在 "Files" 中,展开 "Data Format".
    • 选择 FPKM-UQ (或你需要的格式,如 HTSeq - Counts)。
  5. 查看并选择文件:

    • 中间的文件列表会显示所有符合条件的文件,每个文件都对应一个样本。
    • 你可以直接点击文件名查看详细信息。
    • 批量下载: 点击列表上方的 "Cart" (购物车) 图标,将你需要的所有文件加入购物车。
  6. 下载文件:

    • 点击右上角的 "Cart" 图标进入购物车。
    • 你可以在这里再次确认文件列表。
    • 点击 "Download" 按钮,GDC 会生成一个 manifest 文件(一个包含所有下载链接的文本文件)。
    • 下载 manifest 文件后,你需要使用 GDC 提供的 Data Transfer Tool 来下载所有文件,这个工具是一个命令行工具,支持断点续传,适合下载大量数据。

注意: 直接在浏览器里点击下载大文件非常容易失败,强烈推荐使用 Data Transfer Tool。

3 GDC Data Transfer Tool 使用

  1. 下载和安装:

  2. 下载 Manifest 文件:

    • 按照上述步骤,在 GDC Portal 中将文件加入购物车并下载 .manifest 文件。
  3. 运行下载命令:

    • 打开终端 (Windows下是CMD或PowerShell),进入到你解压 Data Transfer Tool 的目录。
    • 运行以下命令:
      gdc-client download -m /path/to/your/download_manifest.txt
    • 这里的 /path/to/your/download_manifest.txt 是你刚刚下载的 manifest 文件的完整路径。
    • 工具会自动创建一个文件夹,并将所有文件下载到其中。

第三部分:非官方数据下载与处理工具

对于不熟悉命令行的用户,或者需要快速获取特定格式的矩阵数据(如表达矩阵),非官方工具是更好的选择。

1 UCSC Xena

Xena 是一个基于 Web 的强大平台,它已经将 TCGA 数据预处理成了可以直接分析的矩阵格式,并且提供了交互式数据探索和可视化工具。

访问网址: https://xena.ucsc.edu/

优点:

  • 无需下载: 可以直接在浏览器中进行简单的相关性分析、生存分析、绘制热图等。
  • 格式友好: 数据已经是表达矩阵、临床信息矩阵,可以直接用于 R/Python 分析。
  • 包含多种数据集: 除了TCGA,还包含其他公共数据集。

使用方法:

  1. 点击 "Datasets" -> "Public Datasets".
  2. 找到 "TCGA" 项目,然后选择你感兴趣的癌症类型(如 "TCGA BRCA")。
  3. 你会看到各种预定义的数据集,如 "RNAseq - FPKM-UQ", "RNAseq - Counts", "Clinical ( curated )" 等。
  4. 点击 "Add to cart" 将数据集加入你的工作空间。
  5. 在 "Your Cart" 中,你可以选择数据集进行探索和分析。

2 TCGAbiolinks (R/Bioconductor)

如果你是 R 语言用户,TCGAbiolinks 是一个功能极其强大的 R 包,它可以一站式完成数据查询、下载、处理和初步分析。

安装:

if (!require("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("TCGAbiolinks")

基本使用流程:

  1. 查询数据:

    library(TCGAbiolinks)
    # 查询BRCA项目中所有可用样本的信息
    query <- GDCquery(project = "TCGA-BRCA",
                      data.category = "Transcriptome Profiling",
                      data.type = "Gene Expression Quantification",
                      workflow.type = "STAR - Counts")
    GDCquery(query)
  2. 下载数据:

    # 将数据下载到指定目录
    GDCdownload(query, directory = "my_tcga_data")
  3. 处理数据:

    # 将下载的数据转换为表达矩阵
    data <- GDCprepare(query, directory = "my_tcga_data")
    # 'data' 现在是一个 SummarizedExperiment 对象,可以直接用于下游分析
    expr_matrix <- assay(data) # 获取表达矩阵
    colData(data) # 获取样本信息

TCGAbiolinks 的优点是脚本化、可重复,并且与 R 生态无缝集成,是进行批量分析的首选工具。


第四部分:临床数据获取

临床数据对于理解分子特征与临床表型(如生存、分期)的关系至关重要,临床数据通常以 .tsv.xlsx 格式提供。

获取方式:

  1. 通过 GDC:

    • 在 GDC Data Explorer 中,筛选 Cases -> Clinical
    • 选择 TCGA-BRCA 项目,然后点击 "Cart" -> "Download",下载的 clinical.tsv 文件就包含了所有临床信息。
  2. 通过 Xena:

    • 在 Xena 中,将 TCGA BRCA 项目下的 Clinical ( curated ) 数据集加入购物车,即可获得格式化的临床数据矩阵。
  3. 通过 cBioPortal:

    • cBioPortal 是另一个优秀的癌症数据门户网站,它整合了TCGA数据,并提供了友好的临床数据浏览和下载界面。
    • 访问 https://www.cbioportal.org/,选择一个研究(如 "TCGA, Pan-Cancer Atlas"),然后点击 "Files" 标签页,可以下载包含临床数据的 data_clinical_sample.txtdata_clinical_patient.txt 文件。

第五部分:数据格式解析

了解常见文件格式有助于你正确处理数据。

  • .tsv (Tab-Separated Values): 最常见的表格格式,可以用 Excel 或文本编辑器打开,GDC 和 Xena 的数据多用此格式。
  • .fpkm / .tpm: RNA-Seq 表达量,FPKM 和 TPM 是两种标准化的表达量,TPM 更适合在不同基因间进行比较。
  • .htseq_counts: 原始的 RNA-Seq 计数数据,是进行差异表达分析(如使用 DESeq2, edgeR)的首选输入
  • .maf (Mutation Annotation Format): 突变文件,详细记录了每个样本中基因发生突变的位置、类型、氨基酸变化等信息,可以用 maftools 等 R 包进行可视化分析。
  • .cnv (Copy Number Variation): 拷贝数变异文件,通常以 .seg 格式存在,记录了基因组上不同区域的拷贝数变化。

第六部分:实战案例与进阶学习

一个简单的分析流程 (使用 R 和 TCGAbiolinks)

目标: 获取 TCGA-LUAD (肺腺癌) 患者的 RNA-Seq 计数数据和临床数据,并筛选出肿瘤组织和癌旁组织,用于后续的差异表达分析。

# 1. 加载包
library(TCGAbiolinks)
library(SummarizedExperiment)
library(dplyr)
# 2. 查询并下载数据
query <- GDCquery(project = "TCGA-LUAD",
                  data.category = "Transcriptome Profiling",
                  data.type = "Gene Expression Quantification",
                  workflow.type = "STAR - Counts",
                  # 只下载肿瘤样本,样本类型代码为 "Primary Tumor"
                  sample.type = c("Primary Tumor"))
GDCquery(query)
GDCdownload(query, directory = "LUAD_data")
# 3. 准备数据
data <- GDCprepare(query, directory = "LUAD_data")
# 4. 获取临床数据并合并
clinical <- colData(data)
# 查看样本类型列
head(clinical$sample_type)
# 假设我们只关心 "Primary Tumor" 和 "Solid Tissue Normal"
data <- data[, clinical$sample.type %in% c("Primary Tumor", "Solid Tissue Normal")]
# 5. 获取表达矩阵和临床信息
count_matrix <- assay(data)
clinical_info <- colData(data)
# count_matrix 和 clinical_info 就可以用于差异表达分析、生存分析等后续步骤了

进阶学习资源

工具/方法 优点 缺点 适用场景
GDC Portal 官方、数据最全、最新 界面复杂,需用命令行工具下载,学习曲线陡峭 需要下载特定、非标准化的数据,或进行最全面的数据探索。
UCSC Xena 无需编程,交互式分析,数据格式友好 可定制性差,无法进行复杂的批量分析 快速探索数据,进行简单的相关性、生存分析,验证初步想法。
TCGAbiolinks (R) 功能强大,脚本化,一站式下载分析 需要R语言基础 进行系统化、可重复的批量数据分析,是科研工作的首选。

对于初学者,建议从 UCSC Xena 开始,快速了解数据,当你需要进行一个完整的、可重复的分析项目时,再深入学习 GDC PortalTCGAbiolinks,祝你科研顺利!

分享:
扫描分享到社交APP
上一篇
下一篇