-
Notifications
You must be signed in to change notification settings - Fork 2
Search for datasets via MapperHub_zh
Weiheng Liao edited this page Dec 3, 2022
·
7 revisions
恭喜你,终于来到搜索环节,再忍耐一下!MapperHub
十分容易使用,让我们开始吧!
首先,我要介绍几个参数:
-
config
: 搜索配置。传入QueryHub
生成的配置信息。 -
mappers
: 设置需要使用的映射器。在这里,选择映射器基本上等同于选择需要搜索的公开数据库。 -
task
: 可选,本次搜索任务的uuid,用于任务的断点续传。任务正式开始后,可通过MapperHub.config
获得。
首先传入QueryHub
的配置信息。
在这里,我们选择两个映射器——PrideMapper()
和IProXMapper()
——用于搜索。 映射器类存放于mapper
模块。
(请注意数据库与Patpat的连通性,详情请见Q&A)
另外,由于是首次执行搜索任务,task
留空。
m = hub.MapperHub(config=q.get_query_config(),
mappers=[mapper.PrideMapper(),
mapper.IProXMapper(),
],
task=None
# task=[your task's uuid]
)
其中q
为已经完成配置生成的QueryHub
类。我假设你已经看过如何通过QueryHub构建搜索配置了哦,如果没有,请回去再看看吧!
相信你一定看出来了,mappers
参数使得整个搜索流程的可拔插性得以实现。最后,让我们开始搜索吧!
m.mapping()
搜索完毕后,不要忘记导出结果:
result = m.export()
除了result
,搜索结果还包括两个文件:
-
.json
: 包含数据集的完整元数据,数据丰度由公开数据库决定。但每个结果中有四个key是一定存在的:-
protein
: 该数据集的蛋白质水平搜索结果 -
peptides
: 该数据集的肽段水平搜索结果 -
summary
: 该数据集的摘要 -
website
: 该数据集的网址
-
-
.tsv
: 表格化信息,可通过 MS EXCEL 查看:-
title
: 数据集标题 -
summary
: 数据集摘要 -
website
: 数据集网址
-
它们被保存于patpat_envs/result/<task_uuid>
。
有其他感兴趣的数据库?想要开发属于自己的搜索流程吗? 来教程:可扩展的 Patpat学习 Patpat 的接口吧!