生物数据工具箱:从入门到精通的数据库攻略(二)-GEO数据库下载教程
GEO(Gene Expression Omnibus,网址:https://www.ncbi.nlm.nih.gov/geo/)是由美国国家生物技术信息中心(NCBI)维护的公共数据库,主要用于存储和共享高通量基因表达数据、表观遗传学数据以及其他功能基因组学数据。研究人员可以免费上传和下载数据,支持科学研究的透明性和可重复性。
01 GEO数据库的核心数据类型包括:
微阵列(Microarray)
基因表达、miRNA、SNP等。
高通量测序(NGS)
RNA-seq、ChIP-seq、ATAC-seq等。
其他功能基因组学数据
如蛋白质组学、代谢组学等。
02 GEO数据库使用方法
我们首先打开GEO官网,便会看到如下界面(图1):

图1. GEO数据库首页界面
如果想下载数据,右上角的搜索栏是最重要的,这里可输入GSE编号或关键词来搜索数据集。我们搜索GSE178341(一个结直肠癌的单细胞转录组数据集),便会跳转到该数据集的信息页(图2):

图2. GSE178341搜索结果
该页面中有以下内容需要注意:
1.Organism:物种信息,告知数据集包含样品的物种
2.Summary:概括数据集内容
3.Citation(s):数据集的文献来源
4.Platforms:描述实验所用的技术平台,不同的技术平台有对应的GPL号
5.Samples:数据集中包含的样品,每个样品有专属的GSM号,可通过GSM号搜索每个样品的详细信息,包括样品的背景信息、取材、实验和分析方法等等(图3)。
6.Supplementary file:划重点!这里就是作者上传的processed data,包含原始数据处理后的基因表达数据,以及相关的注释信息等。上传的表达矩阵格式可能因实验方法或研究者习惯不同而存在差异。在这个数据集中,H5格式的文件就是每个细胞的基因表达矩阵,两个csv文件则分别包含了每个细胞的注释和生物学信息。可以选择ftp和http链接下载数据。

图3. 样品GSM5387968搜索结果
除了输入GSE号进行搜索,我们也可以输入关键词来搜索相关的数据集信息(图4)。输入关键词“lung single cell”并点击搜索,会发现有两个选项需要选择。GEO DataSets收录了完整数据集信息,GEO Profiles收录了基因的表达模式并生成对应图表展示。

图4. GEO DataSets和GEO Profiles
选择第一个选项进入GEO DataSets的搜索结果页面,可以看到多个肺单细胞测序数据集(图5),右上角的“Top Organisms”可以选择物种对搜索结果进行筛选。左侧可设置其他条件对搜索结果进一步筛选,筛选条件包括实验类型、组织类型、发表时间等。我们可以从筛选后的结果选择需要的数据集。

图5. 关键词“lung single cell”搜索结果
这一期我们学习了如何从GEO数据库搜索和下载数据集。下期详解Single Cell Portal数据库使用技巧。另外,如果有想了解的数据库,可以在评论区留言哦。
新闻中心
News Senter
上海生物芯片有限公司
Shanghai Biochip Co., Ltd.
版权所有©上海生物芯片有限公司
电子邮箱:
marketing@shbiochip.com
地址: 上海市浦东新区张江高科技园区李冰路151号
技术电话:
4001002131
扫描查看
微信公众号