• 中文
  • English
끠
  • 网站首页
  • 关于SBC
    • 公司简介
    • 公司战略
    • 股东资源
    • 专家委员会
    • 交流合作
    • 资质荣誉
    • 组织架构
    • 成员企业
  • 新闻中心
  • 资源中心
    • 技术文章
    • 视频精选
    • 资料下载
    • 生信资源
  • 联系我们
    • 网站首页
    • 联系方式
    • 招贤纳士
  • 产品服务
  • 技术平台
  • circRNA测序
    small RNA测序
    全转录组测序
    SBC lncRNA芯片
    Affymetrix microRNA芯片
    Agilent microRNA芯片
    Affymetrix表达谱芯片
    转录组服务
    SBC ceRNA芯片
    SBC circRNA芯片
    Agilent表达谱芯片
    真核生物mRNA测序
    验证服务
    数字PCR平台
    基因编辑平台
    定量PCR平台
    核酸提取试剂
    全血基因组DNA提取
    组织基因组DNA提取
    细胞基因组DNA提取
    石蜡包埋组织基因组DNA提取
    血清/血浆游离DNA提取
    口腔拭子基因组DNA提取
    基因组服务
    CGH (比较基因组)芯片
    Affymetrix CNV芯片
    全外显子组测序
    Western Blot蛋白免疫
    酶联免疫ELISA检测
    Simoa单分子免疫阵列分析
    免疫检测分析
    全自动Digital Western Blot
    表观组服务
    DNA甲基化芯片
    ATAC-SEQ
    ChIP-SEQ
    单细胞测序
    单细胞多组学研究方案
    CytAssist 空间转录组测序
    高级分析
    DSP空间组学
    其他产品
    基因突变阳性对照品
    基因变异检测探针
    IL-6低丰度检测试剂盒
    细胞实验服务
    细胞培养和处理
    细胞功能检测
    激光共聚焦显微成像平台
    外泌体Biomarker研究
    外泌体研究
    蛋白质组服务
    4D-Label free 相对定量蛋白质组
    4D-DIA相对定量蛋白质组
    4D Trace Sample dDIA
    4D Super Blood dDIA
    PRM 绝对定量蛋白质组
    LCM+4D:深度空间蛋白质组
    qPCR引物定制
    SBC引物库检索
    类器官相关产品
    基质胶
    类器官培养试剂盒
    信号通路分析系统
    信号通路分析系统
    生信分析
    生信分析
    SBCToolBox
    SBC实验动物研究
    实验动物研究平台
    SMI空间组学
    • 生物样本库
    • 基因芯片
    • 新一代测序
    • 基因编辑
    • 蛋白检测
    • 组织芯片
    • 分子病理
    • 分子检测
    • 分子诊断
    • 生物信息
网站首页  ꄲ  技术文章  ꄲ  最新 | 单细胞数据降维和可视化的优势工具--UMAP

新闻中心   News Senter

最新 | 单细胞数据降维和可视化的优势工具--UMAP

 

高通量单细胞组学数据的一个显著性特点就是数据量大,一次能反映的细胞数量多。因此,通过降维和可视化去展示细胞数据特征是一个非常重要的工作。翻开各类发表的单细胞组学文章,不管是CNS的还是其他,几乎所有的结果中,映入眼帘的第一张图片通常是数据结果的降维图形化展示。

 

图1

图1  PBMC细胞单细胞转录组数据展示图

 

实现高维数据可视化的理论基础是基于降维算法。降维算法一般分为两类:那些寻求在数据中保存距离结构的,以及倾向于保存局部距离而不是全局距离的。PCA[1]、MDS[2]等算法属于前者,t-SNE[3,4]、diffusion maps[5]等算法都属于后者。

 

对高维单细胞数据的可视化展示,以t-SNE为代表的非线性降维技术,由于其能够避免集群表示的过度拥挤,在重叠区域上能表示出不同的集群而被广泛运用。然而,任何技术方法都不是完美的,t-SNE也一样,它的局限性体现在丢失大规模信息(集群间关系)、计算时间较慢以及无法有效地表示非常大的数据集[6]等方面。

那么,有没有其它方法能在一定程度上克服这些弱点呢?UMAP就是这样一个能解决这些问题的降维和可视化的工具。

 

统一流形逼近与投影(UMAP,Uniform Manifold Approximation and Projection)是一种新的降维流形学习技术。UMAP是建立在黎曼几何和代数拓扑理论框架上的。UMAP是一种非常有效的可视化和可伸缩降维算法。在可视化质量方面,UMAP算法与t-SNE具有竞争优势,但是它保留了更多全局结构、具有优越的运行性能、更好的可扩展性。此外,UMAP对嵌入维数没有计算限制,这使得它可以作为机器学习的通用维数约简技术。
 

从上述定义可以看到,UMAP对于单细胞这类大数据、高维数据来说,是一个正中下怀的好工具。那么,在真实数据运用中,这种优势能体现出来吗?以下我们通过实际数据对比进行展示。

 

1.小数据集中,t-SNE和UMAP差别不是很大

我们分别以200个和500个单细胞的转录组数据为基础,分别通过t-SNE和UMAP进行降维可视化展示,得到如下图:

图2tSNE-UMAP

图2  200和500个细胞的单细胞转录组数据的t-SNE和UMAP降维分群图

 

可以看到,在小数据集下,两者对细胞集群的展示上,效果比较类似,基本能把不同类型的细胞群进行区分。所以,当数据集比较小的情景下,t-SNE已能足够展示不同群体细胞特征。

 

2.大数据集中,UMAP优势明显(30多万个细胞的降维可视化分析)

我们同时在一个数据集上运行PCA、UMAP和t - SNE,该数据集涵盖了来自8个不同的富含T和自然杀伤(NK)细胞的人体组织的35个样本,共含有30万多个细胞。

图3

图3  PCA,t-SNE和UMPA的降维展示图

 

通过数据降维和可视化展示可以看出,PCA分群效果最差,UMAP和t-SNE都成功将与相似细胞群相对应的簇聚集在一起。但是与t-SNE相比,UMAP还提供了有用的和直观的特性、保留了更多的全局结构,特别是细胞子集的连续性。
 

接下来,我们对上述数据分别用细胞类型和组织来源类型进行着色展示:

(1)细胞类型着色

图4

图4  根据细胞类型的细胞着色图

(2)组织类型着色

图5

图5  根据组织来源的细胞着色图

 

通过在UMAP和t-SNE图上对来源组织进行颜色编码,我们发现t-SNE比UMAP更经常地根据来源组织分离细胞群;相反,UMAP根据细胞在每个主要集群中的起源对细胞进行排序,大致是从脐带血(CB)和外周血单个核细胞(PBMC)到肝脏和脾脏,以及一端的扁桃体到另一端的皮肤、肠道和肺。
 

当我们对特定T细胞标志性marker进行绘图,我们观察到UMAP能够概括T细胞内每个主要集群的分化阶段,从UMAP投影上的驻留记忆T细胞标志物CD69和CD103、记忆T细胞标记CD45RO和幼稚T细胞标记CCR7的表达水平可见。相比之下,虽然t-SNE在群集中确定了类似的连续性,但它们沿共同轴没有明显的结构。

 

由此可见,UMAP在大数据降维和可视化方面优势突出。


图6

图6  Marker基因的细胞标记图

 

随着研究成本的降低和深入,单细胞研究的细胞数量和数据信息肯定会往上走,未来单细胞组学数据将会从现有千万的基础上增加2到3个数量级。因此,在这种发展趋势下,UMAP的发展空间会更大更广。

 

参考文献

[1]. Harold Hotelling. Analysis of a complex of statistical variables into principal components. Journal of educational psychology, 24(6):417, 1933.
[2]. J. B. Kruskal. Multidimensional scaling by optimizing goodness of fit to anonmetric hypothesis. Psychometrika, 29(1):1–27, Mar 1964.

[3]. Laurens van der Maaten and Geo‚rey Hinton. Visualizing data using t-sne.Journal of machine learning research, 9(Nov):2579–2605, 2008.

[4]. Laurens van der Maaten. Accelerating t-sne using tree-based algorithms.Journal of machine learning research, 15(1):3221–3245, 2014.

[5]. Ronald R Coifman and Stephane Lafon. Diffusion maps. Applied and computational harmonic analysis, 21(1):5–30, 2006.

[6]. Van Der Maaten, L. & Hinton, G. Visualizing high-dimensional data using t-SNE.journal of machine learning research. J. Mach. Learn. Res. 9, 26 (2008).

[7]. McInnes, L. & Healy, J. UMAP: uniform manifold approximation and projection for dimension reduction. Preprint at https://arxiv.org/abs/1802.03426 (2018).

 

 
ꄴ上一篇: 无
ꄲ下一篇: 无

新闻中心

News Senter

  • 新闻中心

上海生物芯片有限公司

Shanghai Biochip Co., Ltd. 

版权所有©上海生物芯片有限公司

电子邮箱:

marketing@shbiochip.com

地址: 上海市浦东新区张江高科技园区李冰路151号

技术电话:

4001002131

   沪ICP备05045514号-1

微信公众号 上海生物芯片

扫描查看

微信公众号

沪公网安备31011502004591号

 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6