• 中文
  • English
끠
  • 网站首页
  • 关于SBC
    • 公司简介
    • 公司战略
    • 股东资源
    • 专家委员会
    • 交流合作
    • 资质荣誉
    • 组织架构
    • 成员企业
  • 新闻中心
  • 资源中心
    • 技术文章
    • 视频精选
    • 资料下载
    • 生信资源
    • 策源平台
  • 联系我们
    • 在线咨询
    • 联系方式
    • 招贤纳士
  • 产品服务
  • 技术平台
  • 类器官库
    类器官芯片
    类器官科研应用方案-3DSc
    iPSC来源类器官服务
    “亚洲一号”类器官与器官芯片服务
    器官芯片服务
    组织来源类器官服务
    验证服务
    Real-time PCR验证
    基因编辑
    Digital PCR验证
    多色免疫荧光
    生信分析服务
    细胞实验
    动物实验
    蛋白组服务
    蛋白质组服务
    免疫检测分析
    组织芯片
    组织芯片服务
    定制组织芯片
    转录组服务
    表观组服务
    基因组服务
    基因组、表观遗传组服务
    “芯空一号”单细胞多组学服务
    PCF单细胞原位空间蛋白组
    “芯空一号”空间多组学服务
    GeoMx DSP空间转录组/蛋白组
    LCM+质谱-深度空间蛋白组
    试剂盒产品
    核酸提取试剂盒
    类器官培养基及相关试剂盒
    低丰度蛋白检测试剂盒
    CosMx SMI单细胞空间原位转录组/蛋白组
    Visium CytAssist(HD)空间转录组
    • 生物样本库
    • 基因芯片
    • 新一代测序
    • 基因编辑
    • 蛋白检测
    • 组织芯片
    • 分子病理
    • 分子检测
    • 分子诊断
    • 生物信息
网站首页  ꄲ  技术文章  ꄲ  生物数据工具箱:从入门到精通的数据库攻略(一)

新闻中心   News Senter

生物数据工具箱:从入门到精通的数据库攻略(一)

 

在生物学研究的"问题导向型"与"数据驱动型"两大主流范式中,前人已发表的组学数据正由"辅助材料"向"核心资源"转型。这些数据在验证假设、发现新规律、突破实验瓶颈等方面具有不可替代的作用:

 

 

1. 验证与纠偏

通过分析他人数据,可验证研究结果的普遍性和可重复性。

 

2.数据整合与统计效力提升

对于受限于样本量的研究(如罕见病研究),整合多源数据可显著增强研究结论的可信度。

 

3.科学新发现的"孵化器"

已发表数据中常蕴含未被关注的关联性。例如:从癌症基因组数据中发掘新突变热点,或通过跨物种比较揭示进化规律。

 

4.资源与伦理限制下的替代方案

针对高成本实验(如长期生态监测)或伦理敏感研究(如人类疾病模型),合理利用公开数据可显著缩短研究周期并降低成本。

 

 

尽管已发表数据价值显著,研究者在实际应用中常面临以下挑战:

 

01 文献里的数据找不到来源

 

文献通常在方法或结论部分设置"Data availability"板块,说明数据存储的数据库及对应ID(图1)。部分文献可能将相关信息置于附录或"STAR METHODS"中的"KEY RESOURCES TABLE"(图2)。对于作者使用的第三方数据,需通过数据引用文献追溯来源。

 

快速定位技巧:搜索“data availability”、“availability”、“access”、“accessible”、“raw data”、“processed”等关键词。若出现“Any additional data are available from the corresponding author upon reasonable request”等表述,则表明数据未公开。

 

img1

图1. 文献名称:Global characterization of T cells in non-small-cell lung cancer by single-cell sequencing

 

img2

图2. 文献名称:A constitutive interferon-high immunophenotype defines response to immunotherapy in colorectal cancer

 

 

02 数据库界面复杂或全是英文,不知道该怎么操作

 

多数数据库因收录数据多样且功能复杂,导致界面复杂,加之全英文操作界面,显著增加学习成本。这也是我们撰写本系列文章的初衷,后续将逐一详解各类数据库的使用方法。

 

 

03 不知道该如何选择合适的数据库

 

不同的数据库里能下载到的数据也有各自特色。比如GEO数据库主要提供processed data(原始定量或标准化定量结果等),SRA专注原始测序数据。Zenodo数据库可能会包含中间数据(如R语言的rds格式)以及配套代码等。各位老师可以根据需求选择合适数据库。

 

 

04 数据库中的数据不知道该如何使用,使用时有什么注意事项

 

作者上传到数据库中的组学数据通常包含原始数据、原始定量(count)结果以及标准化后的定量结果等等。整合分析时有以下要点要注意:

1)参考基因组是否相同。敲黑板,画重点,合并分析前必须确认双方使用相同参考基因组版本。

2)选择遗传背景一致性较高的样本数据,可显著增强分析结论的重现性。

3)选择数据集时要注意定量分析软件和试剂的版本。比如10X Genomics公司单细胞转录组测序专用的定量分析软件Cell Ranger,早期版本的软件细胞鉴定策略和现版本有很大差别,实验试剂也在不断升级。如果下载使用的processed data是早期版本的结果,可能会因版本迭代造成差异,降低分析结果可靠性。

4)数据整合时要用相同的数据标准化方法。建议下载数据时使用原始定量而不是已经标准化后的定量结果。这里分享一个窍门。对于转录组测序数据,原始定量矩阵中基因表达值都是整数,而标准化后的结果一般是小数,可以根据这一点判断下载的数据类型。

5)有时我们下载到的定量结果基因名是数据库ID(比如人PTRPC基因在Ensembl数据库中的ID:ENSG00000081237)。数据库在更新时可能更改基因的ID,必要时进行ID转换。

6)当数据整合时发现PCA和样品相关性结果存在批次差异时,需要校正批次差。

 

用好公共数据,借助前人的成果加速你的研究。下期详解GEO数据库使用技巧,敬请期待!

ꄴ上一篇: 无
ꄲ下一篇: 无

新闻中心

News Senter

  • 新闻中心

上海生物芯片有限公司

Shanghai Biochip Co., Ltd. 

版权所有©上海生物芯片有限公司

电子邮箱:

marketing@shbiochip.com

地址: 上海市浦东新区张江高科技园区李冰路151号

技术电话:

4001002131

   沪ICP备05045514号-1

微信公众号 上海生物芯片

扫描查看

微信公众号

沪公网安备31011502004591号

 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6