-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathlocal-search.xml
32 lines (15 loc) · 6.66 KB
/
local-search.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
<?xml version="1.0" encoding="utf-8"?>
<search>
<entry>
<title>翠鸟(kingfisher)公共测序数据下载利器</title>
<link href="/2021/08/14/kingfisher-gong-gong-ce-xu-shu-ju-xia-zai-li-qi/"/>
<url>/2021/08/14/kingfisher-gong-gong-ce-xu-shu-ju-xia-zai-li-qi/</url>
<content type="html"><![CDATA[<h2 id="写在前面"><a href="#写在前面" class="headerlink" title="写在前面"></a>写在前面</h2><p>一般在进行大规模组学研究的时候,都需要批量下载一定数量的测序原始数据来做进一步的分析。从实际工作中发现,下载数据时,往往会遇到网速限制或下载链接不可能等情况,当某个数据库的目标数据无法下载时,其实可以去其它公共数据库,比如NCBI SRA、EBI ENA、DDBJ SRA等下载。此外,还有一些大公司云服务器的资源可供使用,比如AWS Open Data和Google Cloud等。最重要的是,这些数据库之前都是实时共享的,保证了数据的有效性。</p><p>目前主流的测序数据下载工具是NCBI提供的工具<a href="https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software">SRAToolkit</a>,使用其中的<code>fastq-dump</code>直接下载SRR文件,并转换为FASTQ文件。但是,<code>fastq-dump</code>让人诟病的地方是效率不高,只支持单个线程,所以速度特别慢。此外,<code>fastq-dump</code>并不支持同时从多个数据源中尝试下载目标数据,因此下载失败的可能性很高。</p><h2 id="Kingfisher简介"><a href="#Kingfisher简介" class="headerlink" title="Kingfisher简介"></a>Kingfisher简介</h2><p><strong><a href="https://github.com/wwood/kingfisher-download">Kingfisher</a><strong>是近期公开的一个快速灵活的测序数据下载软件,支持从</strong>European Nucleotide Archive (ENA)</strong>, <strong>NCBI SRA</strong>, <strong>Amazon AWS</strong>和<strong>Google Cloud</strong>这四个数据源中下载数据,并且同时支持通过Run accession(比如DRR001970)和BioProject accession(比如PRJNA621514和SRP260223)来批量下载数据。<strong>Kingfisher会尝试从一系列的数据源进行数据下载,直到某个源能够成功下载为止。</strong></p><p>此外,还能根据用户的需求<strong>将下载数据直接输出为SRA、Fastq、Fasta或Gzip等格式</strong>,非常方便,不需要自己再对SRA数据通过fastq-dump进行拆分转换。</p><img src="kingfisher公共测序数据下载利器/kingfisher_logo.png" alt="Kingfisher logo" style="zoom: 67%;"/><h2 id="Kingfisher安装与使用"><a href="#Kingfisher安装与使用" class="headerlink" title="Kingfisher安装与使用"></a>Kingfisher安装与使用</h2><h3 id="安装"><a href="#安装" class="headerlink" title="安装"></a>安装</h3><p>如下所示,Kingfisher可以从通过conda软件包管理系统直接安装(创建一个kingfisher环境),注意在conda中添加<code>conda-forge</code>和<code>bioconda</code>这两个源。</p><figure class="highlight bash"><table><tr><td class="gutter hljs"><div class="hljs code-wrapper"><pre><span class="line">1</span><br></pre></div></td><td class="code"><div class="hljs code-wrapper"><pre><code class="hljs bash">conda create -c conda-forge -c bioconda -n kingfisher pigz python extern curl sra-tools pandas requests aria2<br></code></pre></div></td></tr></table></figure><p>激活kingfisher环境。</p><figure class="highlight bash"><table><tr><td class="gutter hljs"><div class="hljs code-wrapper"><pre><span class="line">1</span><br></pre></div></td><td class="code"><div class="hljs code-wrapper"><pre><code class="hljs bash">conda activate kingfisher<br></code></pre></div></td></tr></table></figure><p>安装必要的python包。</p><figure class="highlight bash"><table><tr><td class="gutter hljs"><div class="hljs code-wrapper"><pre><span class="line">1</span><br></pre></div></td><td class="code"><div class="hljs code-wrapper"><pre><code class="hljs bash">pip install bird_tool_utils<span class="hljs-string">'>='</span>0.2.17<br></code></pre></div></td></tr></table></figure><p>下载安装最新的kingfisher源码,并将可执行文件加入到环境变量中。</p><figure class="highlight bash"><table><tr><td class="gutter hljs"><div class="hljs code-wrapper"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></div></td><td class="code"><div class="hljs code-wrapper"><pre><code class="hljs bash">git <span class="hljs-built_in">clone</span> https://github.com/wwood/kingfisher-download<br><span class="hljs-built_in">cd</span> kingfisher-download/bin<br><span class="hljs-built_in">export</span> PATH=<span class="hljs-variable">$PWD</span>:<span class="hljs-variable">$PATH</span><br>kingfisher -h<br></code></pre></div></td></tr></table></figure><p>此外,如果需要支持<code>ena-ascp</code>方法,需要额外安装IBM提供的Aspera软件。</p><p>Aspera下载链接为:</p><p><a href="https://www.ibm.com/aspera/connect/">https://www.ibm.com/aspera/connect/</a></p><p>下载Linux版本安装包,然后使用<code>tar zxvf</code>命令进行解压,里面有一个安装的bash脚本,直接运行即可进行安装。</p><p>安装完成后,可以在如下默认位置找到可执行文件和配置文件:</p><ol><li><p>可执行文件,将其加入环境变量中。</p><figure class="highlight bash"><table><tr><td class="gutter hljs"><div class="hljs code-wrapper"><pre><span class="line">1</span><br></pre></div></td><td class="code"><div class="hljs code-wrapper"><pre><code class="hljs bash"><span class="hljs-variable">$HOME</span>/.aspera/connect/bin/ascp<br></code></pre></div></td></tr></table></figure></li><li><p>openssh文件:</p><figure class="highlight bash"><table><tr><td class="gutter hljs"><div class="hljs code-wrapper"><pre><span class="line">1</span><br></pre></div></td><td class="code"><div class="hljs code-wrapper"><pre><code class="hljs bash"><span class="hljs-variable">$HOME</span>/.aspera/connect/etc/asperaweb_id_dsa.openssh<br></code></pre></div></td></tr></table></figure></li></ol><h3 id="使用"><a href="#使用" class="headerlink" title="使用"></a>使用</h3><p><strong>注意</strong>:如果只想下载某个确定的SRA数据,则使用<code>-r</code>参数,提供SRR Number即可,如SRR12042866;若是想<strong>批量下载某个BioProject中的所有数据</strong>,则可以使用<code>-p</code>参数,提供BioProject Number,如PRJNA640275或SRP267791。</p>]]></content>
<categories>
<category>工具</category>
</categories>
<tags>
<tag>工具</tag>
</tags>
</entry>
</search>