百篇文献汇总精华!平平无奇单细胞,基础分析难度高
我们上一篇文章《百篇文献汇总精华!想知道单细胞发文生信图片如何使用吗?》中了解了单细胞分群以及细胞统计可视化,但是随着单细胞测序技术的普及,鉴定细胞类型、探索细胞异质性已经很难满足科研需求。于是,通过单细胞差异表达分析发现生物学现象背后的功能机制逐渐成为大家单细胞数据深入分析的必由之路。
当然,在进行差异分析之前,其实我们在上一篇的基础上还需要对鉴定到的特定细胞类型用图形化进行展示,以证明“你妈就是你妈”。同时,样本间的差异分析,也需要用类似的形式,只是说明不同的问题而已。差异分析在生物学研究领域是最常见的数据分析手段,无论是表达谱芯片还是转录组测序或者是单细胞转录组技术。在分析初始都会得到一个表达矩阵,这个矩阵一般来说行是基因或者其他特征,数量可以有很多,成百上千或者几万。列一般为样品,若样品间存在的表型差异是两分组或多分组则就需要做差异分析来探索差异基因的功能。接下来,我们具体展示在单细胞数据中,对于基因表达的各种展现形式:
01 Feature plot
在我们将单细胞的表达结果分成多个亚群后,需要寻找各个单细胞亚群特异性高表达量基因,并展现特异基因在细胞群中的表达分布,于是我们用到了Feature Plot(在tSNE或PCA图上可视化特征表达)。相关图片在文献中超过50%以上出现,共出现562次。文献中的展示结果如下:

但用Seurat官方流程画出的展示图,放到文章中缩小到相同比例,展示效果不佳,没法直接放到文章中。

我们将其美化修饰,需要每个图根据项目的实际情况,细胞数量,格局分布等进行调整,得到如文章中的展示结果,如下:

同时,我们可以修改成文章中常见的颜色,或者根据我们想要展示基因在不同细胞亚群中存在高表达和低表达结果时,我们也可以使用双色渐变来展示。

02 提琴图/箱线图/散点图
做单细胞数据分析的时候,上述表达映射图能从整体上直接展示基因的表达分布情况,但是没法去量化具体的表达情况。这时,我们经常会用小提琴图来量化一些marker基因在不同细胞亚群中的表达情况。这样的量化图形有30%的文献中都出现了提琴图,出现次数超300次。文章中的普遍展示结果如下:

我们按照文章中的展示形式复现如下,除了展示基因在不同细胞亚群中的表达情况,我们也可以展示基因在不同样本中表达情况。

用于显示基因跨集群的表达概率分布的展示方式除了Seurat官方流程中给出的提琴图外,我们还可以用柱状图,箱线图,散点图,蜜蜂图等多种形式展现。结果如下:

这里两幅箱线图的不同在于,我们用箱体的大小来展示了不同细胞群的细胞数量。

03 火山图
火山图在bulk转录组测序分析中应用广泛,用于显示数据之间的明显统计学差异。在单细胞分析中也可用于两个样品之间或者两个细胞亚群之间差异的展现。在文献中看到相关图片出现比率超过20%,图片数量超过50次。展示如下:

火山图的横坐标通常用log2(fold change)表示,差异越大的基因分布在两端,纵坐标用-log10(pvalue)表示表达差异的显著性水平。由于P值越小表示越显著,所以我们进行-log10(P value)转化后,转化值越大表示差异越显著。并且我们可以在火山图上标注出我们所关注的基因。我们按照文章中的展示形式复现如下,将上调基因与下调基因用不同颜色显示,展示效果更好:

04 marker基因展示
热图是一种很常见的图,其基本原则是用颜色代表数字,让数据呈现更直观、对比更明显。在单细胞分析中热图行为基因,列为细胞亚群,每一个代表着该基因在细胞群中的表达值。相关图片在文献中超过70%以上出现,超过145次。
我们用Seurat官方流程中画出的差异基因热图如下:

热图中的基因数量过多导致基因名字也无法看清,我们无法很好地展示结果。于是我们筛选出重点关注的基因表达矩阵,用R语言画热图时,常见的热图结果如下,但是与文章中的展示图相差甚远:

于是我们按照文章中的展示形式复现如下,热图中不仅用颜色展示了基因的表达值,并用点的大小表示每个细胞群中该基因的表达频数。

然后将做出来的展示图拼接起来,调整图片尺寸,最终输出的结果如下图所示:

好了,有关单细胞数据中,基因表达的相关展示图分享到此,后续的更加丰富的内容且听下回分解。
新闻中心
News Senter
上海生物芯片有限公司
Shanghai Biochip Co., Ltd.
版权所有©上海生物芯片有限公司
电子邮箱:
marketing@shbiochip.com
地址: 上海市浦东新区张江高科技园区李冰路151号
技术电话:
4001002131
扫描查看
微信公众号