Información

¿Comparación relativa de microARN a partir de datos TCGA?

¿Comparación relativa de microARN a partir de datos TCGA?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Tengo una pregunta conceptual que esperaba que alguien pudiera responder.

¿Puedo decir que el microARN A se expresa x veces mayor que el microARN B directamente de los datos de TCGA miRseq? ¿Puedo hacer esto después de normalizar los datos? ¿Importa si utilizo valores RSEM o RPKM? Me parece que debería ser legítimo en cualquier caso, ya que los microARN tienen aproximadamente la misma longitud, pero tal vez estoy pasando por alto algo.

Por ejemplo, estoy siguiendo un artículo publicado en Nature Communications titulado "Identificación de una superfamilia de microARN oncogénico pan-cáncer anclado por un motivo de semilla de núcleo central". Los autores descargan los datos y contraen las lecturas de isoformas a un solo recuento de lecturas utilizando las lecturas. Dicen que utilizaron las lecturas por millón de microARN mapeados, lo que establece que cada lectura de microARN cuenta como una fracción de la población total de microARN. Luego, los autores realizan la normalización del cuartil superior, que dicen que es importante porque un subconjunto de microARN (miR-143 en particular) contribuye de manera significativa al recuento total de lecturas. En el texto, los autores parecen usar los valores resultantes para hacer una comparación directa entre microARN.

Definitivamente quiero las isoformas colapsadas, y creo que tiene sentido hacer la normalización. Sin embargo, me gustaría decir que un microARN particular se expresa x veces más alto que otro. ¿Puedo hacer esto a partir de los datos contraídos y normalizados?

Si esto ya ha sido respondido, me disculpo. No pude encontrarlo. Gracias.


Sería muy cuidadoso al hacer tal afirmación a partir de la secuenciación de datos. Hay sesgos bien conocidos en la secuenciación debido a factores como la composición de GC y la composición de hexámero. Debido a esto, es posible comparar los niveles relativos de algunas especies entre tratamientos, pero es complicado hacerlo dentro de una muestra o muestras determinadas. Una forma de evitar esto es realizar qPCR utilizando cuantificación absoluta en unas pocas muestras y luego comparar eso con los resultados de la secuenciación. Por supuesto, no tendrá las mismas muestras que TCGA o una preparación de biblioteca exactamente idéntica, pero será un punto de partida razonable. Luego, podría usar eso para calibrar qué tan confiables podrían ser los niveles relativos dentro del conjunto de datos TCGA.


La secuenciación de ARN pequeño es buena para un cribado preliminar porque, como ocurre con la mayoría de los experimentos de alto rendimiento, el tamaño de la muestra es menor y, por lo tanto, las comparaciones entre muestras pueden no ser precisas.

Para el cálculo de la expresión de miARN, utilizo el script cuantificador de mirdeep2 con una ligera modificación. Básicamente, el script alinea las lecturas con pre-miRNA conocidos y encuentra si se están alineando con la región de miRNA madura anotada (se permite alguna ventana de mapeo parcial en la región no madura y también se puede establecer en cero). Utiliza pajarita para la alineación. Lo que hago generalmente es, en lugar de correr pajarita en el-vmodo (como se establece en mirdeep), lo ejecuto en el-nortemodo de alineación haciendo una pequeña modificación en el script. los-nortemodo le permite definir un región de semillasy número de desajustes en las regiones semilla y no semilla. Puse la longitud de la semilla a10con0desajustes de semillas y alrededor2desajustes no relacionados con la semilla.

Para calcular las lecturas por millón (RPM), lo normalizo con un número de asignaciones únicas al genoma, con los mismos parámetros de alineación (excepto--norc). Según este estudio, un RPM de 100 es biológicamente relevante.

¿Puedo decir que el microARN A se expresa x veces mayor que el microARN B?

Sí, si los recuentos de lecturas son claramente diferentes. Los modelos EM y otros modelos de probabilidad calculan un intervalo de confianza para los recuentos de lecturas o RP (K) M y si dos ARN no tienen intervalos superpuestos, se puede decir que se expresan en diferentes niveles. Sin embargo, no he usado modelos de probabilidad para miARN, pero supongo que está bien porque:

  1. El espacio de búsqueda está muy reducido.
  2. La búsqueda es rigurosa.
  3. Las isoformas están colapsadas.

Esto elimina efectivamente la posibilidad de lecturas dudosas. Puede establecer una diferencia de RPM de 100 para llamar a dos miARN expresados ​​diferencialmente, ya que 100 es el límite inferior de importancia biológica (como se mencionó anteriormente). Los miARN más relevantes tienen un contenido de GC comparable; por lo que puede que no haya un sesgo de secuenciación tan grande (además, la lectura en sí es bastante pequeña).


Ver el vídeo: What is microRNA miRNA? (Agosto 2022).