生物数据工具箱:从入门到精通的数据库攻略(三)-SCP数据库下载教程
Single Cell Portal数据库(SCP,网址:https://singlecell.broadinstitute.org/single_cell)是由美国布罗德研究所开发的开源单细胞组学数据库,旨在通过整合海量数据、提供在线分析工具和可视化功能,降低单细胞研究的门槛并加速科学发现。其核心功能如下:
1.数据存储与检索:截至目前,SCP收录了832项研究,涵盖超过5700万个细胞的单细胞转录组、空间转录组等多模态数据,支持按研究项目、基因、物种、组织或疾病分类检索。
2.交互式可视化与分析:SCP的特色之处,该数据库提供高颜值图表,包括UMAP/t-SNE散点图、箱线图、热图、相关性分析图等,支持动态调整参数(如聚类方式、颜色映射)。
3.数据共享与下载:研究者可设置数据为公开或私有,便于团队协作。SCP开放基因表达矩阵、细胞注释文件、元数据等,部分研究还提供原始测序文件(如FASTQ格式)。
SCP数据库使用方法
我们首先打开SCP官网,便会看到如下界面(图1):

图1. SCP数据库首页界面
SCP提供了两种搜索策略,一种是输入关键词或数据集在数据库中的ID来搜索相关的数据集(Search studies),SCP还允许用户根据组织、物种、疾病、细胞类型、性别、年龄和建库方法来筛选数据集。另一种是输入目标基因,搜索和该基因相关的数据集(Search genes)。我们在Search studies模式中输入breast cancer关键词进行搜索,获得如下结果(图2)。

图2. “breast cancer”搜索结果
搜索结果中表明了数据集的各种信息,便于用户选择。需要注意的是,有的结果标签中存在其他数据库名称,如图2中标注的Human Cell Atlas,这种数据实际储存在Human Cell Atlas数据库中,访问则会跳转到该数据库。这里我们选择第二个数据集进行操作演示。数据集包含三个部分:Summary,可以了解该数据集的摘要和文献来源;Explore,可以进行交互操作;Download,可以下载数据,SCP需要登录后才能下载数据,且目前只支持谷歌账号登录(图3)。

图3. 数据集Summary和Explore板块界面
Explore板块中,用户可以在细胞降维图(tSNE/UMAP)上观看细胞聚类、细胞类型、样品信息等,可以输入特定基因进行基因表达可视化和相关性分析。此外,该模块还可以进行基因差异表达分析,功能多样且实用(图4)。

图4. Explore板块的可视化交互内容
SCP 5种主要的可视化模块:
1.Scatter:细胞降维图
2.Distribution:单基因表达分布图
3.Correlation:多基因相关性分析
4.Dot plot:基因表达气泡图,需要输入两个或更多的基因
5.Heatmap:基因表达热图,需要输入两个或更多的基因
Download板块需要登陆SCP后才能访问。在这里可下载基因表达数据和细胞注释信息,有些数据集还会提供分析过程中产生的中间文件,方便会代码的老师进行下游分析(图5)。

图5. Download板块内容
这一期我们学习了如何从SCP数据库搜索和下载数据集。下期详解ProteomeXchange数据库使用技巧。如果有想学习的数据库,可以在评论区留言哦。
新闻中心
News Senter
上海生物芯片有限公司
Shanghai Biochip Co., Ltd.
版权所有©上海生物芯片有限公司
电子邮箱:
marketing@shbiochip.com
地址: 上海市浦东新区张江高科技园区李冰路151号
技术电话:
4001002131
扫描查看
微信公众号