Skip to content

Search for datasets via MapperHub_zh

Weiheng Liao edited this page Dec 3, 2022 · 7 revisions

通过 MapperHub 搜索数据集

恭喜你,终于来到搜索环节,再忍耐一下!MapperHub十分容易使用,让我们开始吧!

首先,我要介绍几个参数:

  • config: 搜索配置。传入QueryHub生成的配置信息。
  • mappers: 设置需要使用的映射器。在这里,选择映射器基本上等同于选择需要搜索的公开数据库。
  • task: 可选,本次搜索任务的uuid,用于任务的断点续传。任务正式开始后,可通过MapperHub.config获得。

首先传入QueryHub的配置信息。 在这里,我们选择两个映射器——PrideMapper()IProXMapper()——用于搜索。 映射器类存放于mapper模块。 (请注意数据库与Patpat的连通性,详情请见Q&A

另外,由于是首次执行搜索任务,task留空。

m = hub.MapperHub(config=q.get_query_config(),
                  mappers=[mapper.PrideMapper(),
                           mapper.IProXMapper(),
                           ],
                  task=None
                  # task=[your task's uuid]
                  )

其中q为已经完成配置生成的QueryHub类。我假设你已经看过如何通过QueryHub构建搜索配置了哦,如果没有,请回去再看看吧!

相信你一定看出来了,mappers参数使得整个搜索流程的可拔插性得以实现。最后,让我们开始搜索吧!

m.mapping()

搜索完毕后,不要忘记导出结果:

result = m.export()

除了result,搜索结果还包括两个文件:

  • .json: 包含数据集的完整元数据,数据丰度由公开数据库决定。但每个结果中有四个key是一定存在的:
    • protein: 该数据集的蛋白质水平搜索结果
    • peptides: 该数据集的肽段水平搜索结果
    • summary: 该数据集的摘要
    • website: 该数据集的网址
  • .tsv: 表格化信息,可通过 MS EXCEL 查看:
    • title: 数据集标题
    • summary: 数据集摘要
    • website: 数据集网址

它们被保存于patpat_envs/result/<task_uuid>

有其他感兴趣的数据库?想要开发属于自己的搜索流程吗? 来教程:可扩展的 Patpat学习 Patpat 的接口吧!