当前位置: 智能网 > 人工智能 > 如何使用TCGAbiolinks进行数据预处理?

如何使用TCGAbiolinks进行数据预处理?

放大字体 缩小字体 发布日期:2021-01-07 10:02:51   浏览次数:204
核心提示:2021年01月07日关于如何使用TCGAbiolinks进行数据预处理?的最新消息:引言:在前面我们了解了如何使用TCGAbiolinks检索并获取TCGA数据库的公开数据。今天小编就用前面涉及到的代码,下载今天数据准备需要用到的TCGA样本数据。一、数据下载阶段


引言:在前面我们了解了如何使用TCGAbiolinks检索并获取TCGA数据库的公开数据。今天小编就用前面涉及到的代码,下载今天数据准备需要用到的TCGA样本数据。

一、数据下载阶段

第一步:GDCquery()筛选我们需要的数据,TCGAbiolinks包下载TCGA数据进行表达差异分析-肝癌案例

library("TCGAbiolinks")

query <- GDCquery(project = "TCGA-LIHC",

data.category = "Transcriptome Profiling",

data.type = "Gene expression Quantification",

workflow.type = "HTSeq - Counts")

上图为通过TCGA GDC链接中根据筛选条件查看的符合要求结果。下图为通过GDCquery()函数中传入对应的参数得到的结果。两者对比,我们可以发现,两者是一模一样的。说明代码执行正确。前面一期中,我们有详细谈及 GDCquery,可做参考。

samplesDown <- getResults(query,cols=c("cases"))

#getResults(query, rows, cols)根据指定行名或列名从query中获取结果,此处用来获得样本的barcode

# 此处共检索出424个barcodes

getResults()中用到的参数:

参数用法query
来自GDCquery的结果rows用于指定特定的行cols用于指定特定的列

# 从samplesDown中筛选出TP(实体肿瘤)样本的barcodes

# TCGAquery_SampleTypes(barcode, typesample)

# TP代表PRIMARY SOLID TUMOR;NT-代表Solid Tissue Normal(其他组织样本可参考学习文档)

##此处共检索出371个TP样本barcodes

dataSmTP <- TCGAquery_SampleTypes(barcode = samplesDown,

typesample = "TP")

# 从samplesDown中筛选出NT(正常组织)样本的barcode

#此处共检索出50个NT样本barcodes

dataSmNT <- TCGAquery_SampleTypes(barcode = samplesDown,

typesample = "NT")

TCGAquery_SampleTypes中的参数详解:

参数用法barcodeTCGA中的barcodes列表typesample用于指定筛选哪种类型的组织样本,如肿瘤组织“TP”,正常组织“NT”

补充TCGA中的组织样本类型:

TPPRIMARY SOLID TUMORTMmetastaticTRRECURRENT SOLID TUMORTAMAdditional metastaticTBPrimary Blood Derived Cancer-Peripheral BloodTHOCHuman Tumor Original CellsTRBMRecurrent Blood Derived Cancer-Bone MarrowTBM Primary Blood Derived Cancer-Bone MarrowTAPAdditional-New PrimaryNB Blood Derived Normal NTSolid Tissue NormalNBCBuccal Cell Normal???NEBVEBV Immortalized NormalNBMBone Marrow Normal

3  
 
关键词: 数据 样本 肿瘤

[ 智能网搜索 ]  [ 打印本文 ]  [ 违规举报

猜你喜欢

 
推荐图文
ITECH直流电源在人工智能领域的应用 基于朴素贝叶斯自动过滤垃圾广告
2020年是人工智能相关业务发展的重要一年 我国人工智能市场规模、行业短板、发展前景一览
推荐智能网
点击排行

 
 
新能源网 | 锂电网 | 智能网 | 环保设备网 | 联系方式