Skip to content

Este repositorio contiene un tutorial guia para el analisis de datos crudos derivados de tecnologias Oxford Nanopore y los pasos iniciales para conducir un ensamblado de genoma a partir de secuencias de DNA largas

License

Notifications You must be signed in to change notification settings

siriusb-nox/Taller-Oxford-Nanopore-Dec-2022

Repository files navigation

Taller virtual "Principios del analisis de datos de secuencias de ADN derivadas de tecnologías Oxford Nanopore" - 15, 16 Diciembre 2022

Organizadores: Diego Bogarín (UCR) & Melania Fernandez (UCR)

Contribuyentes: Natalia Przelomska (RBG Kew), Alexandre Antonelli (RBG Kew, GU)

Instituciones patrocinadoras: Universidad de Costa Rica (UCR) - OAICE - Royal Botanic Gardens, Kew (RBG Kew) - Antonelli Lab (RGB Kew, Gothenburg University)

1. Introducción

Este repositorio contiene un tutorial guia para el analisis de datos crudos derivados de tecnologias Oxford Nanopore (ONT) y los pasos iniciales para conducir un ensamblado de genomas. Adicionalmente, incluye una demostración de como conducir busquedas de secuencias en una base de datos predeterminada usando ncbi blast. El tutorial esta en parte basado en datos generados por Canales et al. (2022, articulo disponible aqui, usando un GridION, los cuales se utilizaron para ensamblar el genoma nuclear del arbol de la quina (Cinchona pubescens, Rubiaceae). Para las demonstraciones con BLAST, se utilizaran algunos datos no publicados de un organismo misterio (!), producidos por Natalia Przelomska, Alexandre Antonelli, Diego Bogarín & Oscar A Pérez-Escobar).

Este tutorial esta dirigido a personas con un conocimiento basico en programación y esta diseñado para ejecutarse en ambientes UNIX. El participante idealmente debe tener experiencia en uso de terminales, y programas de manejo de archivos de texto como awk, sed, grep, entre otros. El taller se ejecutará en el servidor Kabré, o en computadores previamente configurados.

Para aquellos usuarios con muy poca experiencia (o nula) en programación en ambientes UNIX, un breve tutorial se encuentra disponible aquí.

Este tutorial requiere los siguientes programas (dependencias) para correr (es muy recomendable tener estos programas instalados antes de comenzar el tutorial). Por favor cersiorarse de que las dependencias en que estos programas corren tambien estan disponibles:

  1. NCBI blast: Este programa permite la construcción de bases de datos blast, y la busqueda (alineamiento) de secuencias de ADN o AA (formato fasta) en bases de datos blast.
  2. NCBI magicblast: Este programa permite la busqueda de secuencias de ADN derivadas de secuenciación masiva (formato fasta o fastq) en bases de datos blast.
  3. CANU: este programa permite la corrección y filtrado de secuencias de ONT/PacBio.
  4. SMARTdenovo: este programa ensambla "de-novo" secuencias corregidas y recortadas de ONT/PacBio.
  5. NanoPlot: Una version ejecutable en linea esta disponible aquí; este programa produce graficas con informaciones asociadas a experimentos de secuenciación conducidos en teconologias ONT
  6. Guppy: Este programa se encarga de llamar las bases a partir de archivos FAST5 generados por ONT. Solo esta disponible para usuarios ONT (esta parte del tutorial, aunque se explicará, no se ejecutara).

2. Estructura del pipeline

Este tutorial esta dividio en tres pasos principales (Figura 1):

A. Llamado de bases

B. Analisis de la calidad de datos

C. Corrección y recorte de los datos

D. Operaciones de busqueda y/o ensamblado de genomas

Figure 1 Figura 1: Vista simplificada del tutorial/pipeline

IMPORTANTE: Los datos base necesarios para ejectuar este tutorial estan disponibles en:

/directorio/personal/Taller-Oxford-Nanopore-Dec-2022/NGSdat/  # datos crudos de Cinchona y el organismo misterio (fastq)
/directorio/personal/Taller-Oxford-Nanopore-Dec-2022/NanoPlot/ # datos para ejecutar NanoPlot (archivo de texto)

2.1. Configuración del pipeline

En cualquier pipeline de bioinformatica, es esencial relacionar de que programas depende el pipeline y saber donde estan los archivos input, etc. Para ejecutar este tutorial, se debe copiar este repositorio en un directorio de su escogencia. Para ello, favor ejecutar:

git clone https://github.com/siriusb-nox/Taller-Oxford-Nanopore-Dec-2022.git

Para usuarios asociados a la Universidad de Costa Rica (UCR) y del Kabré, los programas necesarios para correr este tutorial estarán disponibles como modulos y deben ser llamados usando el sistema SLURM. Pasos detallados de como conectarse al Kabre, como intercambiar datos entre un computador local y el servidor, como solicitar recursos y modulos/programas estan disponibles aqui.

Para solicitar los modulos requeridos, ejecutar:

module load programa

Por ejemplo, para cargar los ejecutables de blast+ y canu, ejecutar:

module load blast+/2.11.0
module load canu

Adicionalmente, los recursos necesarios para ejecutar programas tambien deberan ser solicitados bajo el mismo sistema SLURM. Un ejemplo basico de como solicitar recursos se provee aqui:

#!/bin/bash
#SBATCH --job-name=blast+
#SBATCH --cpus-per-task=4
#SBATCH --partition=dribe
#SBATCH --ntasks=1
#SBATCH --time=72:00:00
#SBATCH -o result_%N_%j.out      # File to which STDOUT will be written
#SBATCH -e result_%N_%j.err      # File to which STDERR will be written
#SBATCH --mail-type=ALL
#SBATCH --mail-user=username@ucr.ac.cr

Para usuarios con los programas instalados en un ambiente UNIX en computadoras personales, estos se pueden introducir en la sesión actual (terminal) usando el siguiente comando, por ejemplo:

PATH=$PATH:/directorio/de/la/carpeta/programax

Para el caso particular de mi ordenador, yo ejecuto este comando (NO EJECUTAR - es solo un ejemplo!):

# Canu
PATH=$PATH:/home/siriusb/softwares/genomics/canu/canu-1.9/Linux-amd64/bin/
# Racon 
PATH=$PATH:/home/siriusb/softwares/genomics/racon/build/bin
# Minimap2
PATH=$PATH:/home/siriusb/softwares/genomics/minimap2-2.17_x64-linux/
# samtools
PATH=$PATH:/home/siriusb/softwares/genomics/samtools-1.10
# magicblast
PATH=$PATH:/home/siriusb/softwares/genomics/ncbi-magicblast-1.5.0/bin/
# ncbi blast
PATH=$PATH:/home/siriusb/softwares/genomics/ncbi-blast-2.10.0+/bin/
# SMARTdenovo
PATH=$PATH:/home/siriusb/softwares/genomics/
export PATH

AGRADECIMIENTOS

Natalia Przelomska y Alexandre Antonelli produjeron datos no publicados. Ilia Leitch procuro datos de sequencias de ONT para Cinchona

About

Este repositorio contiene un tutorial guia para el analisis de datos crudos derivados de tecnologias Oxford Nanopore y los pasos iniciales para conducir un ensamblado de genoma a partir de secuencias de DNA largas

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages