• 中文
  • English
끠
  • 网站首页
  • 关于SBC
    • 公司简介
    • 公司战略
    • 股东资源
    • 专家委员会
    • 交流合作
    • 资质荣誉
    • 组织架构
    • 成员企业
  • 新闻中心
  • 资源中心
    • 技术文章
    • 视频精选
    • 资料下载
    • 生信资源
    • 策源平台
  • 联系我们
    • 在线咨询
    • 联系方式
    • 招贤纳士
  • 产品服务
  • 技术平台
  • 类器官库
    类器官芯片
    类器官科研应用方案-3DSc
    iPSC来源类器官服务
    “亚洲一号”类器官与器官芯片服务
    器官芯片服务
    组织来源类器官服务
    验证服务
    Real-time PCR验证
    基因编辑
    Digital PCR验证
    多色免疫荧光
    生信分析服务
    细胞实验
    动物实验
    蛋白组服务
    蛋白质组服务
    免疫检测分析
    组织芯片
    组织芯片服务
    定制组织芯片
    转录组服务
    表观组服务
    基因组服务
    基因组、表观遗传组服务
    “芯空一号”单细胞多组学服务
    PCF单细胞原位空间蛋白组
    “芯空一号”空间多组学服务
    GeoMx DSP空间转录组/蛋白组
    LCM+质谱-深度空间蛋白组
    试剂盒产品
    核酸提取试剂盒
    类器官培养基及相关试剂盒
    低丰度蛋白检测试剂盒
    CosMx SMI单细胞空间原位转录组/蛋白组
    Visium CytAssist(HD)空间转录组
    • 生物样本库
    • 基因芯片
    • 新一代测序
    • 基因编辑
    • 蛋白检测
    • 组织芯片
    • 分子病理
    • 分子检测
    • 分子诊断
    • 生物信息
网站首页  ꄲ  技术文章  ꄲ  单细胞分析雕刻师--常见整合方法比较(二)

新闻中心   News Senter

单细胞分析雕刻师--常见整合方法比较(二)

 

Preface

 

随着单细胞测序技术的迅猛发展和市场的不断下沉,越来越多的研究人员都青睐于使用该技术来阐明一些生物学或医学问题,使通过传统bulk-RNA测序无法解决的事情得以实现成为可能,如细胞图谱的绘制、稀有细胞的鉴定与识别、细胞发育/分化轨迹的构建、肿瘤的精细化研究等。与此同时,也产生了海量的单细胞数据,而这些数据通常来源于不同的实验室,具有不同的构建时间、不同的操作人员以及不同的试剂批次等等。上述差异往往会对数据的合并造成严重的影响,导致批次效应的出现,进而干扰对真实的生物学效应的鉴别,因此,如何将不同来源的数据完美地系在一起一直是一个复杂的、具有挑战性的问题。在过去的十几年间,有数十种数据整合方法相继被开发出来,它们基于不同的原理或应用场景实现对数据的合并,在保留生物学差异的同时尽可能地去除批次效应。这里,我们选择了一些比较常见的工具或方法,包含ComBat、BBKNN、Seurat CCA、Seurat RPCA、Harmony、LIGER、fastMNN、Conos、Scanorama总共9种,通过应用于同一套数据对其进行比较。

 

上期《单细胞分析雕刻师--常见整合方法比较(一)》为大家带来了4类常见的整合方法,本期推送继续为大家带来Harmony、fastMNN等更多整合方法。

 

 

Results

 

05 Harmony

 

Harmony[3]使用迭代聚类方法来对齐不同数据集的细胞 (Figure7)。该算法首先将数据结合起来,并使用PCA将数据投影到一个低纬空间中,然后,Harmony使用一个迭代程序来去除批次效应。每一次迭代包括四个步骤:

 

1)使用一种自定义的k-means软聚类方法将细胞聚类;

 

2)为每个聚类计算一个全局质心,为每个特定数据集计算一个质心;

 

3)使用上步结果计算每一个数据集的矫正因子;

 

4)最后,依据细胞特定因子——一组经过加权的数据集矫正因子的线性组合——来矫正细胞。

 

重复步骤1~4直到收敛。该方法返回的是细胞的低纬嵌入。我们使用默认参数运行 harmony::RunHarmony ,并选取结果的前30个主成分(此处指返回的Harmony向量)进行细胞聚类及其它分析。

 

Figure7| Harmony算法模式图。使用PCA将细胞嵌入低纬空间,Harmony在该降维空间中执行迭代程序。

 

Figure8| Harmony 整合分析结果。左边为UMAP降维图形展示,分别以数据集和细胞类型分组;右图是结果评分。

 

 

06 fastMNN

 

fastMNN是由MNN[4]改进而来,能够更加快速地实现多数据的整合。MNN(Mutual Nearest Neighbors) 通过在不同数据集间寻找互近邻(MNNs)来进行数据的整合(Figure9),该方法的主要步骤为,首先对基因表达矩阵做处理,并进行余弦标准化,然后计算细胞之间的欧氏距离以寻找MNNs,在配对细胞中存在的表达差异被用于计算矫正向量,最后应用到所有细胞上。相比于MNN直接利用基因表达来计算距离,fastMNN则是在PCA的基础上来获取最近邻。我们选取了前3000个HVGs用于此次整合分析。

 

Figure9| MNN算法模式图。该算法通过寻找两个高维数据Batch1和Batch2之间的MNNs(灰色方框)确定细胞对,Batch1作为Reference,从而计算矫正向量,然后应用到Batch2中并且合并到Batch1中。整合后的数据可作为新的Reference

 

Figure10| fastMNN 整合分析结果。左边为UMAP降维图形展示,分别以数据集和细胞类型分组;右图是结果评分

 

 

07 BBKNN

 

BBKNN(Batch Balanced K Nearest Neighbours) 是一个简洁、快速、更加轻量级的数据整合工具[5]。它能够在一个低纬空间中直接计算最近邻并构建近邻图,该图形消除了来自不同批次的数据的影响(Figure11)。另外,该工具主要基于Python语言编写,因此,对于BBKNN,我们主要基于Scanpy的分析流程,使用 bbknn.bbknn 代替 scanpy.pp.neighbors,并以前30个PCs作为输入用于数据的整合。

 

Figure11| BBKNN算法模式图。图A简单展示了一个细胞的kNN及BBKNN的结果,对每一个细胞,BBKNN会计算其在每个批次中的最近邻。图B展示了图形的构建过程,将距离转换成指数相关的连接,同时对结果进行修剪,移除错误连接

 

Figure12| BBKNN 整合分析结果。左边为UMAP降维图形展示,分别以数据集和细胞类型分组;右图是结果评分

 

 

08 LIGER

 

LIGER[6]主要是基于iNMF(integrative non-Negative Matrix Factorization) 方法实现不同数据批次效应的识别(Figure13)。获取输入数据后,LIGER会通过iNMF将原数据分解,学习得到新的低纬空间,在该空间内,每个细胞都由两组因子定义,一组是数据集特异因子,一组是共享因子,其中每一个因子都表征一种生物信号。通过构建共享因子近邻图,后者继而被用于识别不同数据集的相似细胞。最后使用最大的数据批次作为参考对因子负载分位数进行标准化以实现批次校正。在本次分析中,我们指定关键参数 "k=20, λ=5" 来运行 rliger::optimizeALS 函数,其中,k代表了分解因子的数量, λ用于调节数据集特异因子对结果的影响。

 

Figure13| Liger整合示意图。图A:LIGER可以以多种类型数据作为输入;图B:iNMF方法识别共享和数据集特异的基因;图C:通过iNMF得到的低纬嵌入空间进行图构建。每一个细胞都依据最大因子负载被分配上一个标签,并且连接到其最近邻上,然后通过衡量比较邻近因子负载值进行重分析以防止错误整合

 

Figure14| LIGER 整合分析结果。左边为UMAP降维图形展示,分别以数据集和细胞类型分组;右图是结果评分

 

 

~ 其他整合方法请见下回分解 ~

 

ꄴ上一篇: 无
ꄲ下一篇: 无

新闻中心

News Senter

  • 新闻中心

上海生物芯片有限公司

Shanghai Biochip Co., Ltd. 

版权所有©上海生物芯片有限公司

电子邮箱:

marketing@shbiochip.com

地址: 上海市浦东新区张江高科技园区李冰路151号

技术电话:

4001002131

   沪ICP备05045514号-1

微信公众号 上海生物芯片

扫描查看

微信公众号

沪公网安备31011502004591号

 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6