生物数据工具箱：从入门到精通的数据库攻略（四）-PX数据库下载教程

ProteomeXchange（PX，https://www.proteomexchange.org/）是国际蛋白质组学数据共享联盟，成立于2014年，旨在为全球研究者提供标准化、高质量的蛋白质组学数据存储与共享服务。该联盟已整合全球六大核心分库，覆盖质谱原始数据、分析结果及多维度注释信息，支持数据开放共享与跨平台访问。其核心分库特色如下：

1、PRIDE Archive

创始节点，由欧洲分子生物学实验室（EMBL-EBI）运营，是存储规模最大支持多种蛋白质组数据格式的分库，支持复杂逻辑检索，结果中可直接预览质谱图关联的鉴定结果。

2、iProX

中国国家蛋白质科学中心（北京）负责，亚洲重要节点，采用Aspera实现高速传输，符合中国人类遗传资源管理规范，适合涉及敏感样本（如临床队列）的研究数据上传。

3、MassIVE

美国加州大学圣地亚哥分校（UCSD）主导，专注超大规模数据集，适用于需要处理TB级数据的项目（如多中心临床研究）。

4、PeptideAtlas

位于美国西雅图，由系统生物学研究所（ISB）管理，侧重肽段水平整合。适合验证新发现的修饰位点或探索跨物种保守肽段的研究。

5、jPOST

日本及亚太地区核心节点，由多机构联合运营，支持本地化数据管理与交互式图表生成。

6、Panorama Public

美国华盛顿大学主导，专注于靶向蛋白质组学，深度绑定靶向蛋白质组学分析工具Skyline，适合方法开发者而非数据复用者。

PX数据库使用方法

打开PX官网，便会看到如下界面（图1）：

图1. PX数据库首页

“Access Data”可以让我们获取PX数据库中已有蛋白质组数据，“Submit Data”可以将我们自己的蛋白质组数据上传到数据库中。点击“Access Data”获得如下结果（图2）。

图2. PX数据库搜索页面

结果中有三个重要部分：

1.页面顶部罗列了PX数据库中TOP10的物种、检测仪器和关键词，方便使用者进行数据集筛选。此外，PX数据库还提供了质谱谱图数据，选择USI板块后再输入USI（Universal Spectrum Identifier）编号进行搜索。

2.除了上述筛选方法外，使用者还可以通过左侧的工具栏进行任意关键词检索或发表时间、子数据库等方式进行筛选过滤。

3.这里以列表形式列举了PX数据库收录的数据集信息。列表中各title含义如下：

1）Dataset Identifier：数据集在PX数据库中的编号ID

2）Title：数据集名称

3）Repository：数据集所在子数据库

4）Species：数据集内样品的物种

5）Instrument：检测仪器型号

6）Publication：数据集来源于哪篇已发表文献

7）Lab Head：数据集上传实验室领头人姓名

8）Announce Date：数据集发表日期

9）Keywords：数据集关键词

iProx和PRIDE这两个子数据库的数据集最常见，这里以这两个为例进行操作说明。

iProx：打开PXD064347，直接选择页面底部“iProX dataset URI”，转到该数据集在iProX数据库中的页面（图3）。在Download All Files中可选择Aspera或Http两种方式进行数据集下载。这里选择HTTP后转到新页面（图4）。我们可以看到该数据集中全部样品的数据。文件类型有RAW和SEARCH两种，RAW是质谱检测得到的原始数据，SEARCH是用搜库软件进行分析后得到的蛋白质定量数据。