Este documento describe el uso de dos métodos (mirCHECK y MiRENA) para predecir microRNAs asociados a la respuesta a la sequía en yuca. Los resultados muestran que MiRENA tiene un mejor rendimiento al predecir más microRNAs conocidos y más diversos, así como una mayor proporción de predicciones de 21 nucleótidos. Sin embargo, ambos métodos muestran una alta frecuencia de predicciones de 24 nucleótidos, lo que sugiere la sobrerrepresentación de siRNAs. Usando filtros adicionales, se redujo la fracción de predic
Predicción de MicroRNAs asociados a respuesta a sequía en yuca (Manihot esculenta Crantz)
1. Predicción de MicroRNAs asociados a respuesta a
sequía en yuca (Manihot esculenta Crantz).
Fausto Rodríguez1, Carolina Ballén1, Sarah Ayling1, Germán Plata2 and Joe Tohme1
¹Proyecto Agrobiodiversidad y Biotecnología, Centro internacional de Agricultura Tropical (CIAT), Palmira, Valle del Cauca.
²Columbia University
f.v.rodriguez@cgiar.org
INTRODUCCIÓN MATERIALES Y MÉTODOS
Libreria y secuenciación. A partir de plantas de Manihot esculenta variedad Tai 16
MicroRNAs (miRNAs), una clase de smallRNAs endógenos no codificantes de 19 a 25 nt cultivadas in- vitro (Expuestas a estrés por calor, sequía y condiciones normales) y de
de longitud, juegan un rol esencial en la regulación de genes en plantas, especialmente hojas y raíces de plantas cultivadas en campo (condiciones normales), se extrajo el
en el crecimiento, desarrollo y respuesta a estrés biótico y abiótico. En varias especies de RNA total usando Trizol (Invitrogen). La librería de smallRNAs se construyó a partir un
plantas, incluyendo yuca, se ha demostrado que algunos microRNAs conservados se pool de los RNAs extraídos y fue secuenciada por medio de síntesis química (Illumina,
expresan diferencialmente en condiciones de estrés por frío y sequía, sin embargo el University of Iowa DNA Facility).
número y actividad de microRNAs específicos de yuca no es conocido. Con el fin de Preprocesamiento: Las 14,565,465 secuencias brutas obtenidas se sometieron a un
identificar microRNAs presentes en el genoma de yuca asociados a sequía se analizaron proceso de limpieza de adaptadores y filtros por tamaño (15< n < 30). Los 9,570,232
secuencias obtenidas a partir de la secuenciación por síntesis química de una librería reads que pasaron estos filtros fueron reducidos a 766,410 secuencias no redundantes
construida a partir un pool de RNA extraído de plantas sometidas a diferentes a las cuales se les enmascararon las repeticiones (incluyendo ncRNAs provenientes
condiciones de sequía, las cuales fueron analizadas mediante dos estrategias diferentes. de TAIR 10 y RFAM) dejando 598,120 secuencias distintas.
14,565,645 reads Predicción mirCHECK (Jones-Rhoades, 2009): Se mapearon mediante Bowtie las
Preprocesamiento 598,120 secuencias únicas en el genoma (JGI v4) con hasta 20 hits distintintos. A partir
(Filtros por tamaño y
enmascarar de los loci mapeados se recuperaron precursores de ~700 nt, se doblaron mediante
reperticiones, RNAfold y se procesaron con una versión modificada de MirCHECK que motraba el
agrupamiento
secuencias únicas) mir* de cada mir candidato.
Total RNA pool
598,120 Secuencias diferentes
Predicción MiRENA (Mathelier & Carbone, 2010): Este script hace el mapeo de las
598,120 secuencias con BLAST y selecciona las secuencias con menos de 5 hits. A
Contrucción y
partir de estos hits extrae precursores de 140 nt de longitud, los dobla mediante
secuenciación RNAfold, y aplica 5 criterios físicos y combinatorios sobre los stem-loops para obtener
libreria smallRNA
las predicciónes. Aplicamos un filtro por número de reads solamente después de tener
mirCHECK MiRENA predicciones de genes diana. Sólo se consideraron los candidatos con evidencia mir/
mir* en la librería.
Predicción genes diana: se corrio predicción en el servidor de psRNATarget
http://biocomp5.noble.org/psRNATarget/ con parametros por descarte a partir me los
psRNATarget miRNAs candidatos sobre el transcriptoma de yuca (JGI v4) y se escogieron los genes
diana con un puntaje de predicción menor o igual a 1.5.
RESULTADOS
mirCHECK
MiRENA
Secuencias
Mapeadas
221,503
181,623
En nuestro flujo de trabajo con mirCHECK se mapearon 221,503 sobre el genoma en ~
Total
Predicciones
268
643
1,000,000 de loci distintos. 18573 secuencias únicas pasaron los criterios básicos de
Iden>cas
con
mirBASE
4
10
miCHECK y fueron posteriormente reducidas a 268 candidatos con evidencia de expresión
Proporción
Idén>cas
0.015
0.016
de mir*. Cuando se utilizó MiRENA para predecir los microRNAs a partir de las 598120 se
Familias
Idén>cas
1
8
mapea una menor proporción de secuencias sobre el genoma (181,623). MiRENA predijo
Proporción
21nt/24nt
0.17
0.44
621 candidatos a microRNA, todos ellos distintos a las predicciones de mirCHECK.
Tabla 1. Comparación del rendimiento en la predicción de microRNAS
entre flujos de trabajo utilizando dos predictores, mirCHECK y MireNA
DISCUSION
porque los miRNAS son producidos por DCL1 y típicacemente son oligos de 21nt mientras
que los siRNAS, una clase distinta de smallRNAs, son generados por DCL4 y tienen una
longitud típica de 24 nt.
Aunque mejores que las de mirCHECK, las predicciones de MiRENA muestran una fracción
muy alta en 24nt donde abundan posibles FP. Esto hace que tengan una distribución de
tamaños marcadamente distinta a la de los miRNAs conocidos de plantas (Figura 1 serie B).
Al seleccionar solamente los candidatos con posibles genes diana predichos con psTarget y
con 3 o más reads se disminuyó la fracción de 24nt (Figura 1 series C y D). Por ende
esperamos en este conjunto filtrado de microRNAs una consecuente disminución de FP, ya
que por medio de estos filtros se logró finalmente una distribución de tamaños muy similar a
la de los miRNAs conocidos de plantas (Figura 1 serie D).
En cuanto a la anotación de función molecular (Tabla 2), la mitad (11/22) de los miRNAs
candidatos presumiblemente regulan factores de transcripción. Los 4 miRNAs candidatos de
24 nt tienen dianas de función desconocida, o de unión a ATP, por lo que pueden
corresponder a transposones y por lo tanto estos smallRNAs pueden ser siRNAs . Se ha
Hay tres resultados que muestran que MiRENA tiene un rendimiento reportado que durante la repuesta a sequía proceso biológicos como la fotosíntesis y
superior en la predicción. Primero, MiRENA predice más del doble de crecimiento se reprimen (Pinheiro & Chavez, 2010). Nuestros resultados concuerdan con
microRNAS que mirCHECK con una mayor proporción candidatos estos reportes en la medida que genes reguladores de auxina, y factores de transcripción
idénticos a miRNAs conocidos (0,016> 0, 015). Segundo, con MiRENA los asociados al desarrollo parecen ser blanco de regulación de nuestros miRNAs predichos.
miRNAs predichos idénticos a los conocidos son mucho más diversos que
microRNA
Predicho
Longitud
Reads
id
mirBASE
Diana
Descripción
Diana
los detectados con mirCHECK (8 familias > 1 familia). Tercero, la sRNA001.00000344
21
1081
miR397
cassava4.1_023475m
LAC17
(laccase
17);
laccase
proporción 21nt/24nt es mayor en las predicciones de MiRENA (0,44 > sRNA001.00001455
20
244
miR394c
cassava4.1_008769m
F-‐box
family
protein
0,17).De los dos primeros resultados se infiere que nuestro flujo de trabajo sRNA001.00002524
21
137
cassava4.1_002769m
SPX
(SYG1/Pho81/XPR1)
domain-‐containing
protein
utilizando MiRENA tiene una mayor sensibilidad. Del tercero se deduce que sRNA001.00003160
21
111
miR160a
cassava4.1_004122m
ARF17
(AUXIN
RESPONSE
FACTOR
17);
transcrip>on
factor
MiRENA tiene una mayor especificidad ya que el numero de predicciones sRNA001.00003384
21
103
miR164d
cassava4.1_026590m
NAC
DOMAIN
CONTAINING
PROTEIN
100);
transcrip>on
factor
de 21nt es un indicador de falsos positivos (FP) mientras que el de 24nt se sRNA001.00039420
24
8
cassava4.1_017234m
unknown
protein
correlaciona con los verdaderos positivos (VP). Esto último se explica sRNA001.00039446
27
8
cassava4.1_003443m
endomembrane
protein
70,
puta>ve
porque sRNA001.00048981
21
7
miR390a-‐5p
cassava4.1_021773m
RPK2
(RECEPTOR-‐LIKE
PROTEIN
KINASE
2);
protein
serine/threonine
kinase
CONCLUSIONES sRNA001.00062959
22
5
cassava4.1_006748m
transcrip>on
elonga>on
factor-‐related
sRNA001.00063439
21
5
cassava4.1_019508m
auxin-‐responsive
family
protein
- Nuestro flujo de trabajo con MiRENA tiene un mejor rendimiento en la sRNA001.00070539
21
5
cassava4.1_008407m
kelch
repeat-‐containing
F-‐box
family
protein
predicción de miRNAs que mirCHECK. sRNA001.00073121
21
5
miR164d
cassava4.1_020925m
NAC1;
transcrip>on
factor
- Una alta frecuencia de miRNAs candidatos de 24 nt sugiere una sRNA001.00082532
26
4
cassava4.1_033111m
sobrerepresentación en la librereia de siRNAs asociados a repeticiones sRNA001.00104281
21
3
cassava4.1_004755m
tetratricopep>de
repeat
(TPR)-‐containing
protein
aun no descritas. Usando filtros de calidad la fracción de 24 nt se reduce. sRNA001.00116526
21
3
cassava4.1_004517m
TCP4
(TCP
family
transcrip>on
factor
4);
transcrip>on
factor
sRNA001.00117042
21
3
cassava4.1_008692m
ubiqui>n-‐protein
ligase
sRNA001.00140975
27
3
cassava4.1_023629m
KAN2
(KANADI
2);
DNA
binding
/
transcrip>on
factor
REFERENCIAS sRNA001.00143389
21
3
cassava4.1_029311m
SPL9
(SQUAMOSA
PROMOTER
BINDING
PROTEIN-‐LIKE
9);
transcrip>on
factor
sRNA001.00153640
24
3
cassava4.1_000101m
Jones-Rhoades. Prediction of Plant miRNA genes. Plant MicroRNAs: Methods and Protocols. Edited by Blake C. Meyers and Pamela J. Green. Vol. 592,
(2009): 19-30. sRNA001.00156480
21
3
cassava4.1_005716m
unknown
protein
Mathelier, Anthony, and Alessandra Carbone. MIReNA: finding microRNAs with high accuracy and no learning at genome scale and from deep sRNA001.00160386
24
3
cassava4.1_025045m
ATP
binding
/
ATPase/
nucleoside-‐triphosphatase/
nucleo>de
binding
sequencing data. Bioinformatics (Oxford, England) 26, no. 18 (June 2010): 2226-2234.
sRNA001.00163201
21
3
cassava4.1_005729m
CYP89A6;
electron
carrier/
heme
binding
/
iron
ion
binding
/
monooxygenase
Pinheiro, C, and M M Chaves. Photosynthesis and drought: can we make metabolic connections from available data?. Journal of experimental botany 62,
no. 3 (December 2010): 869-882.
Tabla 2. Candidatos a MicroRNAs (MiRENA) con posibles genes diana (psRNATarget).