• 中文
  • English
끠
  • 网站首页
  • 关于SBC
    • 公司简介
    • 公司战略
    • 股东资源
    • 专家委员会
    • 交流合作
    • 资质荣誉
    • 组织架构
    • 成员企业
  • 新闻中心
  • 资源中心
    • 技术文章
    • 视频精选
    • 资料下载
    • 生信资源
  • 联系我们
    • 网站首页
    • 联系方式
    • 招贤纳士
  • 产品服务
  • 技术平台
  • circRNA测序
    small RNA测序
    全转录组测序
    SBC lncRNA芯片
    Affymetrix microRNA芯片
    Agilent microRNA芯片
    Affymetrix表达谱芯片
    转录组服务
    SBC ceRNA芯片
    SBC circRNA芯片
    Agilent表达谱芯片
    真核生物mRNA测序
    验证服务
    数字PCR平台
    基因编辑平台
    定量PCR平台
    核酸提取试剂
    全血基因组DNA提取
    组织基因组DNA提取
    细胞基因组DNA提取
    石蜡包埋组织基因组DNA提取
    血清/血浆游离DNA提取
    口腔拭子基因组DNA提取
    基因组服务
    CGH (比较基因组)芯片
    Affymetrix CNV芯片
    全外显子组测序
    Western Blot蛋白免疫
    酶联免疫ELISA检测
    Simoa单分子免疫阵列分析
    免疫检测分析
    全自动Digital Western Blot
    表观组服务
    DNA甲基化芯片
    ATAC-SEQ
    ChIP-SEQ
    单细胞测序
    单细胞多组学研究方案
    CytAssist 空间转录组测序
    高级分析
    DSP空间组学
    其他产品
    基因突变阳性对照品
    基因变异检测探针
    IL-6低丰度检测试剂盒
    细胞实验服务
    细胞培养和处理
    细胞功能检测
    激光共聚焦显微成像平台
    外泌体Biomarker研究
    外泌体研究
    蛋白质组服务
    4D-Label free 相对定量蛋白质组
    4D-DIA相对定量蛋白质组
    4D Trace Sample dDIA
    4D Super Blood dDIA
    PRM 绝对定量蛋白质组
    LCM+4D:深度空间蛋白质组
    qPCR引物定制
    SBC引物库检索
    类器官相关产品
    基质胶
    类器官培养试剂盒
    信号通路分析系统
    信号通路分析系统
    生信分析
    生信分析
    SBCToolBox
    SBC实验动物研究
    实验动物研究平台
    SMI空间组学
    • 生物样本库
    • 基因芯片
    • 新一代测序
    • 基因编辑
    • 蛋白检测
    • 组织芯片
    • 分子病理
    • 分子检测
    • 分子诊断
    • 生物信息
网站首页  ꄲ  技术文章  ꄲ  单细胞分析雕刻师--常见整合方法比较(一)

新闻中心   News Senter

单细胞分析雕刻师--常见整合方法比较(一)

 

—— Preface ——

 

随着单细胞测序技术的迅猛发展和市场的不断下沉,越来越多的研究人员都青睐于使用该技术来阐明一些生物学或医学问题,使通过传统bulk-RNA测序无法解决的事情得以实现成为可能,如细胞图谱的绘制、稀有细胞的鉴定与识别、细胞发育/分化轨迹的构建、肿瘤的精细化研究等。与此同时,也产生了海量的单细胞数据,而这些数据通常来源于不同的实验室,具有不同的构建时间、不同的操作人员以及不同的试剂批次等等。上述差异往往会对数据的合并造成严重的影响,导致批次效应的出现,进而干扰对真实的生物学效应的鉴别,因此,如何将不同来源的数据完美地系在一起一直是一个复杂的、具有挑战性的问题。在过去的十几年间,有数十种数据整合方法相继被开发出来,它们基于不同的原理或应用场景实现对数据的合并,在保留生物学差异的同时尽可能地去除批次效应。这里,我们选择了一些比较常见的工具或方法,包含ComBat、BBKNN、Seurat CCA、Seurat RPCA、Harmony、LIGER、fastMNN、Conos、Scanorama总共9种,通过应用于同一套数据对其进行比较。

 

 

—— Results ——

 

01 Preprocessing

 

对于每一个独立的样本,我们遵循 Seurat 标准分析流程进行预处理,并且依据已知的Marker基因和SingleR[1] 预测的细胞类型结果对其进行注释,然后将所有数据合并在一起,分别保存为RDS和Anndata对象以供后续使用。以其中一例样本进行演示 (10x, pbmc_1k)。读取数据创建Seurat对象,过滤表达基因数低于200、线粒体基因占比高于5%的细胞;然后对表达矩阵做标准化处理,结合高变基因(HVGs, High Variable Genes)使用PCA降维,选取前20个主成分(PCs, Principal Components) 进行后续的聚类及可视化,并使用SingleR对细胞进行注释;最后,结合已知的细胞特异性Marker进行注释的校验 (Figure1)。

 

Figure1 | pbmc_1k样本聚类结果。上方图片为按照聚类结果和注释结果分组的UMAP降维图形,下图为Marker基因的表达热图,列按照聚类结果分组

 

 

02 unIntegration

 

按照如上方法对每个样本进行单独处理,然后合并所有样本。首先,我们在未矫正的情况下直接对数据进行分析,并按照不同的标签进行分组,如数据来源、细胞类型等 (Figure2)。其中,为了方便理解及简化后续分析,我们将细分的细胞类型简单合并,例如 pre-B_cell_CD34- , pro-B_cell_CD34+ 和 B cell 统称为B细胞。

 

Figure2 | 未整合数据分布。四张子图分别为按照数据来源、聚类结果、细分细胞类型、合并细胞类型分组的UMAP图形展示

 

Figure3 | 未整合数据评分

 

 

03 Seurat CCA

 

首先使用Seurat-CCA[2]的方法进行数据整合。该方法主要通过CCA(Canonical Correlation Analysis) 来对原始数据进行降维处理并且捕获其中的数据特征,从而实现数据的对齐,减少批次效应的影响 (Figure4)。主要步骤包括使用CCA生成亚空间,然后在亚空间内识别互近邻对,最后将这些互近邻对作为“锚点”来调整表达值,返回一个矫正的基因表达矩阵。这里,我们选取了前3000个HVGs,通过函数 Seurat::FindIntegrationAnchors(reduction='cca') 计算锚点,然后通过 Seurat::IntegrateData 整合数据,输出的结果用于进一步的分析和绘图。

 

Figure4 | Seurat整合流程模式图。参考数据和查询数据共享一组类似细胞,通过CCA及L2正则化得到相关向量,映射在共享亚空间中,在该空间内鉴定MNN细胞对并且赋分,最后计算每个细胞的矫正向量用于转换表达数据

 

Figure5 | Seurat-CCA 整合分析结果。左边为UMAP降维图形展示,分别以数据集和细胞类型分组;右图是结果评分

 

 

04 Seurat RPCA

 

接下来我们使用Seurat中另一种用于数据整合的方法——RPCA(Reciprocal PCA),该方法使用RPCA而非CCA来识别数据集锚点。使用该方法确定任意数据集之间的锚点时,会将每个数据集投影到其他PCA空间中。在分析上,Seurat-RPCA和Seurat-CCA并无太大区别。

 

Figure6 | Seurat-RPCA 整合分析结果。左边为UMAP降维图形展示,分别以数据集和细胞类型分组;右图是结果评分

 

ꄴ上一篇: 无
ꄲ下一篇: 无

新闻中心

News Senter

  • 新闻中心

上海生物芯片有限公司

Shanghai Biochip Co., Ltd. 

版权所有©上海生物芯片有限公司

电子邮箱:

marketing@shbiochip.com

地址: 上海市浦东新区张江高科技园区李冰路151号

技术电话:

4001002131

   沪ICP备05045514号-1

微信公众号 上海生物芯片

扫描查看

微信公众号

沪公网安备31011502004591号

 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6