Información

¿Cómo comparar dos transcripciones de ARN?

¿Cómo comparar dos transcripciones de ARN?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

En este documento, se informa el paquete de ARN cuffcompare:

Debido a la naturaleza estocástica de la secuenciación, el ensamblaje de la misma transcripción en dos muestras diferentes puede dar como resultado transfrags de longitudes ligeramente diferentes. Una transfragmentación de Gemelos se consideró una coincidencia completa cuando había una transcripción con una cadena idéntica de intrones en la anotación combinada.

¿Qué significa esto en términos de comparar dos transcripciones para ver si son iguales? ¿Significa eso que dos transcripciones se consideran iguales si tienen los mismos intrones, incluso faltan algunos exones en una de las transcripciones? ¿Qué quieren decir con transfrag? ¿Hay algún ejemplo?


Si faltan algunos exones en una de las muestras, los intrones, por definición, serán diferentes. Lo que esto permite es que los límites de los exones más externos varíen un poco. Esto es particularmente útil para el exón 1, que a menudo tiene una cobertura más baja.


Recuentos frente a FPKM en RNA-seq

La mayoría de las veces, la razón por la que las personas realizan RNA-seq es para cuantificar los niveles de expresión génica. En teoría, RNA-seq son datos a nivel de relación, y debería poder comparar legítimamente el gen A en la muestra 1 con la muestra 2, así como con el gen A y el gen B en la muestra 1.

Hay dos formas principales de medir la expresión de un gen, o transcripción, o lo que sea, en los datos de RNA-seq:

  1. cuenta son simplemente el número de lecturas que se superponen a una característica determinada, como un gen.
  2. FPKM o F ragmentos por kilobase de exón por millón de lecturas son mucho más complicados. Fragmento significa fragmento de ADN, por lo que las dos lecturas que componen una lectura de extremo emparejado cuentan como una. Por kilobase de exón significa que los recuentos de fragmentos se normalizan dividiendo por la longitud total de todos los exones en el gen (o transcripción). Este poco de magia hace posible comparar el gen A con el gen B incluso si tienen diferentes longitudes. Por millón de lecturas significa que este valor se normaliza con el tamaño de la biblioteca. Este poco de magia hace posible comparar el Gene A en la Muestra 1 con la Muestra 2 incluso si la biblioteca RNA-seq de la Muestra 1 & # 8242s tiene 60 millones de pares de lecturas y la biblioteca de la Muestra 2 & # 8242s tiene solo 30 millones de pares de lecturas.

(De hecho, como mostrará esta publicación, hay más diferencias entre los dos métodos que estos & # 8211 I & # 8217; volveré a esto en la conclusión).

En mi opinión, normalizar por longitud exónica y tamaño de biblioteca parece una obviedad, por lo que uso FPKM y nunca había entendido por qué alguien usaría los recuentos. Pero si realmente desea defender su análisis, debe poder responder cualquier pregunta con & # 8220Sí, lo intenté y aquí & # 8217s lo que encontré, & # 8221, por lo que quería repetir mi análisis utilizando recuentos. Mientras tanto, un colega que está en los recuentos me dijo que los FPKM aplican demasiada normalización, pasando por alto algunas de las diferencias entre una muestra y otra. ¿Por qué sería ese el caso? Decidí que mientras iba a repetir mis análisis usando recuentos, también podría hacer una comparación lado a lado con FPKM para comprender realmente cómo difiere el comportamiento.

Para comparar los dos, recurrí a mi conjunto de datos de RNA-seq: Human BodyMap 2.0. Para los propósitos de este ejercicio, solo miraré las transcripciones conocidas.

cómo calcular FPKM

cómo calcular recuentos

Puede calcular recuentos usando bedtools multicov, pero necesita un archivo de anotación de transcripción en formato BED para indicarle a bedtools dónde buscar & # 8211 a diferencia de Gemelos con la configuración -N 1, multicov no va a salir y descubrir transcripciones novedosas para usted. Para que los recuentos sean directamente comparables a los FPKM que calculé anteriormente, quería usar ese mismo archivo de anotación de transcripción y convertirlo de formato GTF a BED.

De buenas a primeras, las cosas se complican. Noté que el archivo de anotación de la transcripción original tiene una fila por cada combinación de una transcripción con un exón o secuencia de codificación o codón de inicio o finalización. Considere PRNP, que solo tiene dos exones (el exón 1 es el 5 & # 8242 UTR y el exón 2 es la secuencia de codificación y el 3 & # 8242UTR) y realmente solo una transcripción & # 8211 no hay variaciones importantes de empalme que yo sepa. Tiene 18 filas en este archivo.

Eso es porque 4 versiones distintas de PRNP de alguna manera lo hicieron en la base de datos de Ensembl como transcripciones distintas y algunas tienen descaradamente las coordenadas de secuencia de codificación incorrectas (la secuencia de codificación real termina en chr20: 4680625 en hg19).

En cualquier caso, si es tan malo para PRNP, puede imaginar cuántas filas están presentes para genes que tienen legítimamente muchas variantes de empalme:

Esto nos presenta un problema. Ahora, si nosotros deseado cuenta para cada posible exón, podríamos usar la herramienta gtf2bed en bedops que convertirá ese archivo GTF original en un archivo BED, línea por línea:

5 minutos). Pero lo más probable es que nuestra unidad de análisis sean transcripciones o símbolos genéticos. Si tuviéramos que hacer recuentos por exón y luego agrupar por transcripción o símbolo de gen y tomar la suma de los recuentos de exones, estaríamos contando cuádruple cada exón en PRNP y contando cada exón en TTN muchas más veces que eso. Lo que necesitamos es convertir el archivo GTF en una fila por, digamos, símbolo genético, si el símbolo genético es nuestra unidad de análisis.

Resulta que los ea-utils de Erik Aronesty contienen un script en Perl para hacer precisamente eso. Se llama gtf2bed al igual que la herramienta bedops anterior, por lo que, para mayor claridad, le he cambiado el nombre a gtf2bed_2.pl. Para descargarlo y ejecutarlo:

1 minuto. (Advertencia: si está utilizando esta publicación como una canalización, tenga en cuenta que el uso del archivo BED resultante sin modificación puede dar resultados muy disparatados para los genes enumerados en múltiples loci & # 8211 consulte la discusión de SNORD60 más adelante en esta publicación).

Si abre el archivo de la cama resultante, verá que las tres primeras columnas son simplemente el cromosoma, el sitio de inicio de la transcripción (más temprano) y el sitio de finalización de la transcripción (más reciente) para el gen o, en otras palabras, la unión de todos los elementos transcritos. sitios en ese gen sobre todas las posibles transcripciones.

Ahora, gtf2bed_2.pl observa un formato BED12 muy adecuado y, por lo tanto, lo hace preservar la información de la estructura del exón en forma de las columnas blockSizes y blockStarts. Pero multicov no lee nada más que las tres primeras columnas. Por lo tanto, cuando cuente con este archivo que acabamos de crear, estará contando intrones y exones por igual. Por lo que puedo decir al preguntar, así es como todos hacen sus recuentos de RNA-seq.

Compare esto con los FPKM, donde Cufflinks contará solo las lecturas exónicas y se normalizará por un gen & # 8217s (o transcripción & # 8217s) de longitud total del exón, si cuenta (al menos de acuerdo con esta canalización / a menos que haga otras cosas más elegantes) está incluyendo lecturas intrónicas. Por lo tanto, los recuentos & # 8211 a diferencia de los FPKM & # 8211 se verán afectados por la cantidad de contaminación previa al ARNm (y, por lo tanto, la cobertura intrónica) que tenga en sus bibliotecas.

Con todo lo dicho, a continuación ejecuté multicov, así:

Lo que tomó alrededor de 50 horas de tiempo de CPU.

Por cierto, generar la lista de archivos BAM para este comando es molesto, esta vez lo hice con echo -n:

El archivo resultante tendrá el archivo de cama de 12 columnas original creado por gtf2bed_2.pl más, en este caso, 16 columnas adicionales para cada una de las 16 BAM que llamé para usar multicov.

un par de covariables

Dado que los FPKM son, en teoría, solo recuentos normalizados por el tamaño de la biblioteca y el tamaño de la transcripción, pensé que también debería tener esos dos valores a mano para este análisis. Calculé el tamaño de la biblioteca como el número de lecturas en cada BAM con samtools view -c:

Lo que lleva un tiempo sorprendentemente largo (

30 min / BAM), de ahí la necesidad de presentar cada uno como un trabajo.

La otra covariable que quería era la longitud de cada gen. Pero cuales longitud, preguntas? Usando el archivo BED que acabo de crear, es fácil obtener la longitud desde el sitio de inicio de transcripción más antiguo hasta el sitio de finalización de transcripción más reciente posible:

Si quieres la longitud exónica, eso es un poco más engañoso. Obviamente, Cufflinks conoce esta información de alguna forma, ya que se utiliza para la normalización, así que miré hacia atrás en el archivo isoforms.fpkm_tracking de Cufflinks y vi que, de hecho, tiene un valor de longitud para cada transcripción. Puedes sacar eso así:

Pero genes.fpkm_tracking no tiene esto para los genes, presumiblemente porque elegir una longitud como & # 8220la & # 8221 longitud para un gen con múltiples transcripciones es incómodo. Con algunas secuencias de comandos más sofisticadas y la combinación de herramientas básicas, podría obtener la longitud de la unión de todos los exones posibles en un gen, una especie de análogo al archivo gene.lengths.txt que acabamos de crear, que es la longitud de la unión de todas las transcripciones posibles. Pero no necesariamente lo necesitaré por hoy.

Por el bien de la argumentación, también calculé las longitudes promedio directas para cada símbolo de gen, por muy burdo que sea. Primero agarré los símbolos genéticos y la longitud en bash:

y luego solo algo de SQL envuelto en R:

Con los recuentos, FPKM y covariables en la mano, me propuse comprender cómo y por qué estas medidas diferían entre sí.

Primero, lo aburrido de la configuración:

Pregunta más básica: ¿están correlacionados los recuentos y los FPKM? ¡Ciertamente lo espero! Podemos preguntar esto de dos maneras. Primero, hagamos esta pregunta en todas las combinaciones de tejido y símbolo genético.

Esto es extraño. En el espacio lineal (correlación de Pearson & # 8217s), los recuentos y FPKM están significativamente correlacionados, pero apenas, con rho = .006. En el espacio de rango (correlación de Spearman), están fuertemente correlacionados, rho = .81. ¿Qué podrían posiblemente estos datos Mira ¿igual que?

Esto es tan extremo: desde este punto de vista, parece haber básicamente dos tipos de genes: aquellos con algunos recuentos pero

0 FPKM, y aquellos con algunos FPKM pero

0 cuentas. Es sorprendente que viéramos alguna correlación.

Esto es incluso cierto si tomamos el valor promedio de cada gen en los múltiples tejidos considerados aquí:

Los dos valores atípicos más extremos fueron IGHJ6 y SNORD60, así que los busqué individualmente.

IGHJ6 tiene solo 61 pb de largo, en chr14: 106,329,408-106,329,468, por lo que no es de extrañar que pueda tener recuentos bajos pero FPKM altos. SNORD60, por otro lado, es además un gen corto, un snoRNA de solo 83 pb en chr16: 2,205,024-2,205,106. Entonces, ¿cuál es la oferta de SNORD60 & # 8242s?

Primero miré los datos sin procesar:

13-21 millones de lecturas pero cero FPKM en muchos tejidos. No tomó mucho tiempo encontrar la fuente del problema: en el archivo BED que usé para crear recuentos, SNORD60 tiene 204 Mb de longitud:

Lo que resulta ser porque en el archivo GTF original aparece con tres exones en loci genómicos completamente diferentes.

Entonces, cuando ejecuté gtf2bed_2.pl para convertir este GTF en un archivo BED, simplemente eligió la base inicial más baja y la base final más alta como los puntos finales de una transcripción.

Resultó sorprendentemente difícil encontrar alguna forma de filtrar esos casos. El histograma de longitudes de genes en mi archivo BED es tan extremo como los gráficos anteriores:

Buscando algún límite para filtrar los genes cuya longitud es obviamente un error, busqué en Google & # 8220 el gen humano más largo & # 8221 y encontré DMD, que mide casi 2,3Mb. El histograma de genes ≤ 2,3 Mb se ve un poco mejor que el primer histograma:

Esto está más cerca de la distribución exponencial que esperaría, aunque sospecho que todavía hay algunos genes erróneamente largos en esta distribución también.

Si este subconjunto, de genes & lt 2.3Mb, es más racional y al menos ha eliminado algunos de los errores más escandalosos, hubiera esperado que fuera posible explicar gran parte de la variabilidad en los recuentos frente a FPKM dentro de este subconjunto:

Pero no, modelo lineal de FPKM

cuenta da un R ^ 2 de solo .008. Incluir la longitud del gen en el modelo no ayudó:

Y dividir explícitamente los conteos por la longitud del gen solo ayudó un poco, llevándonos a un R ^ 2 de .016:

Este conjunto de datos incluye 52,686 símbolos de genes Ensembl, por lo que me pregunté si quizás los datos se comportarían mejor si solo consideráramos los genes RefSeq de 23,705 hg19. Esto ayudó solo un poco, llevándonos a un R ^ 2 de .026:

Y cuando volví a todas las combinaciones de genes y tejidos con este conjunto de datos más limitado, finalmente obtuve un rho de .26 para una correlación de Pearson & # 8217s, y un .83 para Spearman & # 8217s.

Esto todavía no es una correlación tan estrecha como esperaba, considerando que se supone que estas dos medidas miden en términos generales lo mismo & # 8211 expresión génica & # 8211 exactamente en el mismo conjunto de datos. A modo de comparación, cuando ejecuto mi canalización de control de calidad de expresión génica estándar en datos de RNA-seq para diferentes muestras, pero llamo usando la misma canalización, a menudo encuentro una correlación de Pearson & # 8217s entre muestras de .85 o mejor. Mientras que aquí, para los mismos datos llamados con dos tuberías diferentes, obtengo un Pearson & # 8217s de solo .26. Este es quizás otro recordatorio desafortunado de cuán irreproducibles pueden ser los hallazgos de expresión génica. Las tecnologías utilizadas (incluidas las diferentes tuberías bioinformáticas) introducen más variabilidad que la presente en las propias muestras subyacentes.

Pensé que una posible explicación podría ser la diferencia entre la longitud exónica y la longitud total del gen. Aquí los recuentos se evalúan sobre la longitud total del gen, y luego los dividí por la longitud total del gen, mientras que las FPKM se evalúan sobre los exones y se normalizan por la longitud exónica. Dentro de este conjunto de genes de comportamiento relativamente bueno ≤ 2,3 Mb y en RefSeq, la correlación entre la longitud total y la longitud exónica sigue siendo de solo 0,19 en el espacio lineal y 0,49 en el espacio de rango:

Lo que sugiere que al menos parte del problema aquí es solo que los recuentos, que incluyen exones e intrones, miden algo muy diferente a los FPKM, que incluyen solo exones.

Entonces, parece que estas dos métricas solo miden algo diferente y obtienen diferentes respuestas (como lo demuestra la baja correlación entre ellas). Eso sugiere que como máximo uno de los dos métodos & # 8211 recuentos y FPKMs & # 8211 es adecuado para comparar el Gene A con el Gene B. Al menos en un nivel de proporción, es decir. Podría decirse que, dado que la correlación de Spearman & # 8217s es más fuerte, ambos podrían estar bien para análisis de nivel ordinal.

Eso es simplemente comparar el gen A con el gen B. Pero a menudo la respuesta que buscamos en nuestros análisis es encontrar genes cuyo nivel de expresión se correlacione con alguna variable de interés, digamos, un genotipo, tratamiento farmacológico o punto temporal. Dichos resultados serán reproducibles entre recuentos y FPKM solo en la medida en que los recuentos y los FPKM para cada gen individual estén correlacionados entre las muestras. En este caso, nuestras & # 8220 muestras & # 8221 son los 16 tejidos diferentes en Human BodyMap 2.0. Para evaluar qué tan reproducible es el nivel de cada gen en diferentes tejidos, hice una & # 8220 gráfica de volcán & # 8221 primero, de las correlaciones de Pearson & # 8217s:

Los resultados son mucho mejores de lo que esperaba:

Correlación de Pearson % de genes
positivo (p & lt .05) 83%
ninguno (p & gt .05) 6%
negativo (p & lt .05) 0.01%
N / A* 11%

* Los valores de NA resultan de filas en las que todos los tejidos tenían 0 recuentos o todos tenían 0 FPKM, por lo que la prueba de correlación falló.

Sorprendentemente, cuando volví a ejecutar esto con Spearman & # 8217s, los resultados fueron prácticamente idénticos (todos los números en la tabla anterior estaban dentro de una fracción de un porcentaje).

Entonces, para la mayoría de los genes, la diferencia entre varias muestras y los niveles de expresión de ese gen es al menos nominalmente reproducible entre las dos métricas consideradas aquí: recuentos y FPKM. Sin embargo, dudo en asignar demasiada importancia a este hallazgo porque lo que estoy usando aquí como mi conjunto de datos de ejemplo es la expresión en diferentes tejidos, a diferencia de diferentes individuos. Las diferencias de expresión genética entre tejidos son bastante grandes y bastante fundamentales para la biología, y yo esperaría que las diferencias entre individuos fueran mucho más sutiles. Si las mismas diferencias interindividuales aparecen en los recuentos que aparecen en los FPKM, no puedo decirlo en este ejemplo.

conclusiones

El nombre & # 8220FPKM & # 8221 & # 8211 fragmentos por kilobase de exón por millón de lecturas & # 8211 implica que FPKM es una medida de expresión génica normalizada por la longitud exónica y el tamaño de la biblioteca, en contraste con los recuentos brutos. Sin embargo, en el transcurso de este ejemplo, me he dado cuenta de que hay varias otras diferencias entre los recuentos y los FPKM:

  • Cuando una lectura se superpone a múltiples definiciones de exón o múltiples definiciones de transcripción, Cufflinks toma una decisión sobre a qué transcripción (es) asignar la lectura cuando calcula FPKM. El cálculo de recuentos, al menos en el proceso simple que he presentado aquí, no es tan sofisticado.
  • Como resultado de eso, los recuentos normalmente solo se evalúan mediante el símbolo del gen. Si fueran evaluados por transcripción, muchas lecturas se contarían dos veces (o incluso se contarían decenas de veces) ya que muchos genes tienen una multiplicidad de transcripciones. En comparación, hay relativamente pocos loci genómicos donde se superponen dos genes distintos.
  • Los FPKM solo cuentan alineaciones exónicas, los recuentos (al menos esta tubería) incluyen intrones. La longitud total de un gen (incluidos los intrones) solo está modestamente correlacionada con su longitud exónica (rho = .19), por lo que esto hace una gran diferencia.
  • Las canalizaciones de generación de conteo generalmente no son capaces de descubrir transcripciones. En su lugar, debe alimentarlos con una lista de loci genómicos con genes conocidos (con FPKM, esto es opcional). Es importante tener cuidado de que la fusión de transcripciones en una fila por gen no cree resultados sin sentido como vimos para SNORD60 anteriormente.

Todas estas diferencias parecen contribuir a explicar por qué los FPKM y los recuentos que llamé aquí & # 8211 exactamente en el mismo conjunto de datos & # 8211 tienen tan poca correlación entre sí (R ^ 2 & lt .01 incluso después de eliminar los valores atípicos de longitud de genes ). A pesar de esto, los FPKMs y cuenta para cualquier gen puede ser algo más reproducible, aunque este análisis consideró diferentes tejidos (que tienen enormes diferencias en la expresión génica) y no diferentes individuos (que tienen sutiles diferencias en la expresión génica).

Dado que los recuentos y los FPKM parecen medir cosas bastante diferentes, está en debate cuál es la medida más válida. Me expondré y discutiré un poco a favor de los FPKM. Las bibliotecas de mRNA-seq están enriquecidas para mRNA, normalmente a través de la selección de poliA, por lo que es de esperar que se eliminen la mayor parte de la cobertura intrónica. Dado que está utilizando un método de laboratorio específicamente para obtener solo ARNm, su canalización debe coincidir con eso y solo contar exones. Claramente, los FPKM también representan un método más sofisticado que implica la asignación de lecturas a transcripciones particulares y la normalización para la longitud exónica y el tamaño de la biblioteca, todo lo bueno. No he escuchado a nadie negar esto. El argumento que he escuchado de los recuentos ha sido que son una medida diferente que puede tener más variabilidad y más poder para ciertas cosas. Pero nada de lo que he visto aquí me ha convencido de que esta variabilidad adicional refleja algo significativo que le gustaría analizar.

Dicho esto, mi motivación original para esta publicación & # 8211 siempre quiere hacer el análisis en ambos sentidos para poder responder cualquier pregunta & # 8211 sigue en pie.

Acerca de Eric Vallabh Minikel

Eric Vallabh Minikel está en una búsqueda de por vida para prevenir la enfermedad priónica. Es un científico que trabaja en el Broad Institute of MIT y Harvard.


Las interacciones entre la ARN polimerasa y el elemento de reconocimiento del núcleo son un factor determinante de la selección del sitio de inicio de la transcripción.

Durante el inicio de la transcripción, la holoenzima de la ARN polimerasa (RNAP) desenrolla aproximadamente 13 pb del ADN del promotor, formando un complejo abierto (RPo) de RNAP-promotor que contiene una burbuja de transcripción monocatenaria, y selecciona un nucleótido de cadena molde para que sirva como sitio de inicio de la transcripción (TSS). En RPo, la enzima central RNAP hace interacciones proteína-ADN específicas de secuencia con la parte aguas abajo de la hebra sin plantilla de la burbuja de transcripción ("elemento de reconocimiento central", CRE). Aquí, investigamos si las interacciones RNAP-CRE específicas de secuencia afectan la selección de TSS. Para hacer esto, utilizamos dos enfoques basados ​​en secuenciación de próxima generación para comparar el perfil TSS de WT RNAP con el de un derivado de RNAP defectuoso en interacciones RNAP-CRE específicas de secuencia. En primer lugar, utilizando la lectura final de la transcripción masivamente sistemática, MASTER, evaluamos los efectos de las interacciones RNAP-CRE en la selección de TSS in vitro e in vivo para una biblioteca de 4 (7) (∼16,000) promotores de consenso que contienen diferentes secuencias de la región de TSS, y observamos que el perfil de TSS del derivado de RNAP defectuoso en las interacciones RNAP-CRE difería del de WT RNAP, de una manera que se correlacionó con la presencia de secuencias CRE consenso en la región TSS. En segundo lugar, utilizando la secuenciación del transcrito de alargamiento nativo merodiploide 5 ', mNET-seq 5', evaluamos los efectos de las interacciones RNAP-CRE en los promotores naturales en Escherichia coli e identificamos 39 promotores en los que las interacciones RNAP-CRE determinan la selección de TSS. Nuestros hallazgos establecen que las interacciones RNAP-CRE son un determinante funcional de la selección de TSS. Proponemos que las interacciones RNAP-CRE modulan la posición del extremo aguas abajo de la burbuja de transcripción en RPo y, por lo tanto, modulan la selección de TSS, que implica la expansión de la burbuja de transcripción o la contracción de la burbuja de transcripción (scrunching o antiscrunching).

Palabras clave: RNA polimerasa promotor burbuja de transcripción iniciación de la transcripción selección del sitio de inicio de la transcripción.

Declaracion de conflicto de interes

Los autores declaran no tener ningún conflicto de intereses.

Cifras

Análisis de los efectos de secuencia específica ...

Análisis de los efectos de las interacciones RNAP-CRE específicas de secuencia por MASTER (11). ( A )…

Modelo para selección de TSS y…

Modelo para la selección de TSS e hipótesis para los efectos de las interacciones RNAP-CRE en TSS ...

Efectos de interrumpir RNAP – G CRE…

Efectos de interrumpir RNAP – G CRE interacciones in vitro: análisis por MASTER. ( A…

Efectos de interrumpir RNAP – G CRE…

Efectos de interrumpir RNAP – G CRE interacciones in vitro: análisis por extensión de cebadores. (…

Efectos de interrumpir RNAP – G CRE…

Efectos de interrumpir RNAP – G CRE interacciones in vivo: análisis 5 ′ mNET-seq de 4…

Efectos de interrumpir RNAP-G CRE…

Efectos de interrumpir RNAP-G CRE interacciones in vivo: análisis 5 ′ mNET-seq de MI.…


2.5 - Transcripción y traducción

Se hace una copia complementaria del ADN en el núcleo para formar el ARNm. Este proceso es catalizado por la enzima. Polimerasa de ARN. Para copiar el ARNm, la doble hélice de ADN se desenrolla mediante Helicasa de ADN, con los enlaces de hidrógeno rompiéndose entre los pares de bases a copiar. El ADN se abre en el sitio de transcripción o posición del gen que necesita copiarse.

La cadena de codificación, o la hebra de sentido, es la plantilla para el ARNm. Sin embargo, el ARNm en realidad se construye contra el hebra antisentido. Tiene el mismo patrón que la hebra opuesta debido al emparejamiento de base complementario.

Los nucleótidos libres se emparejan con los nucleótidos del ADN. La única diferencia es que uracilo reemplaza a la timina, uniéndose a la adenina. La ARN polimerasa forma los enlaces fosfodiéster para formar la columna vertebral de la molécula de ARNm. Luego, el ARNm se desprende y abandona el núcleo a través de los poros nucleares de la membrana. Entra en el citoplasma para leer en los ribosomas. La doble hélice del ADN se reforma.

2.5.3 & # 8211 Describe el código genético en términos de codones compuestos por tripletes de bases

Cada secuencia de tres bases codifica un aminoácido, llamado código triplete. Estos grupos de tres se llaman codones.

Por cada aminoácido, tiene dos o tres tripletes que los codifican. Otros trillizos actúan como "comienzo' o 'paradacodones, que definen dónde comenzar y terminar la secuencia polipeptídica.

También hay múltiples tripletes que codifican estos codones de "puntuación".

2.5.4 & # 8211 Explicar el proceso de traducción que conduce a la formación de polipéptidos

Los aminoácidos se activan al combinarse con ARNt (transferencia de ARN) en el citoplasma. Las moléculas de ARNt tienen la forma de una hoja de trébol. Cada molécula se une a un aminoácido específico. codón, el otro extremo se une al aminoácido. El otro extremo tiene un anticodón, cuales
es el codón complementario del ARNm. El tRNA se une al aminoácido, catalizado por una enzima. Este proceso utiliza ATP.

Una vez que se ha transcrito la molécula de ARNm, se envía al ribosoma en el citoplasma o retículo endoplásmico para traducción. La proteína se forma a partir de polipéptidos, que se acumulan en los ribosomas. Los ribosomas se mueven a lo largo del ARNm y "leen" el código, comenzando en el codón de inicio.

A partir de aquí, las moléculas de ARNt, con sus aminoácidos, encuentran su codón complementario en el ARNm. Los aminoácidos se unen a los ribosomas para formar el cadenas polipeptídicas. El tRNA luego se separa del aminoácido y el mRNA, y se envía de regreso al citoplasma para encontrar más aminoácidos. Este proceso continúa hasta que se alcanza un codón de parada, momento en el que se libera la cadena polipeptídica.

Para proporcionar suficientes aminoácidos libres para la traducción, heterótrofos consumirlos en la proteína de su dieta.

El primer codón de la molécula de ARNm es AUG, el codón de inicio, que se une al anti codón [UAC] de la molécula de ARNt. Esta molécula de ARNt transporta los aminoácidos Metionina. La unión de codón a anti-codón es antiparalelo.

Los polipéptidos formados con pliegues en su forma para la proteína como resultado de diversas fuerzas intermoleculares.

El proceso continúa hasta que se forma el polipéptido completo.

2.5.5 & # 8211 Discutir la relación entre un gen y un polipéptido

La teoría es que un gen forma un polipéptido. Esto es cierto en la mayoría de los casos, sin embargo, hay algunas excepciones:


La transcripción y la traducción son dos pasos diferentes de la expresión génica. Podemos identificar la diferencia entre transcripción y traducción basándonos en varios factores como una plantilla, materia prima, ubicación, producto, enzimas involucradas, etc. Principalmente, la transcripción es el proceso de producir una molécula de ARNm a partir de una plantilla de ADN de un gen. Por otro lado, la traducción es el proceso de producir una secuencia de aminoácidos de una proteína a partir de una molécula de ARNm. Por lo tanto, esta es la diferencia clave entre transcripción y traducción.

Además, según la materia prima, la diferencia entre transcripción y traducción es que la transcripción requiere cuatro tipos de ribonucleótidos como materias primas, mientras que la traducción requiere 20 aminoácidos diferentes como materias primas. De manera similar, la transcripción ocurre en el núcleo mientras que la traducción ocurre en los ribosomas. Por lo tanto, esta es la diferencia entre la transcripción y la traducción en relación con la ubicación de la ocurrencia. En la siguiente infografía se muestran más diferencias entre la transcripción y la traducción.


Cálculo de la transcripción más abundante a partir de datos de RNA-Seq

vcf2maf usa VEP para anotar variantes, y creo que selecciona la transcripción de Ensembl predeterminada para usar en la anotación. A veces, la transcripción que selecciona VEP no es la transcripción que me interesa, generalmente porque la transcripción seleccionada no es la transcripción más expresada en mi tejido de interés (piel). vcf2maf le permite proporcionar una lista de anulación de transcripciones para que VEP anote la variante utilizando las transcripciones especificadas en su lugar.

Tengo varias muestras de piel secuenciadas con ARN-Seq. Quiero estimar la abundancia promedio de cada transcripción en todas las muestras y luego usar estas abundancias para clasificar las transcripciones de más a menos abundantes. Luego, usaré la transcripción más abundante como transcripción predeterminada del VEP. Planeo usar salmón o kallisto para cuantificar la abundancia de transcripciones. ¿Debo usar TPM o recuentos normalizados para calcular la expresión promedio?

Mi pensamiento inicial es utilizar recuentos normalizados (generados por DESeq2 a partir de recuentos sin procesar). ¿Hay algún problema con este enfoque? GTEx muestra abundancia de transcripciones con TPM promedio, pero pensé que TPM era inapropiado para usar entre muestras porque no tiene en cuenta las diferencias entre muestras.

Actualización: Olvidé mencionar que también intenté usar rangos de TPM como lo describe @ATpoint. No he comparado completamente cómo se compara esto con las transcripciones identificadas por recuentos normalizados, pero los genes iniciales que verifiqué mostraron una buena concordancia entre los métodos.


La base de datos mejorada de transcripciones quiméricas y datos de RNA-seq, ChiTaRS-5.0

Las tecnologías ecológicamente racionales y los ARNm de GenBank se han utilizado para identificar los ARN quiméricos de dos o más genes diferentes. Al analizar cientos de miles de tecnologías ecológicamente racionales quiméricas mediante secuenciación de ARN, encontramos que el nivel de expresión de las tecnologías ecológicamente racionales quiméricas es generalmente bajo y son altamente específicas de tejido en células normales.

Aquí presentamos la versión mejorada de la base de datos ChiTaRS (ChiTaRS-5.0) con más de (66,243 + 41,584 + 3,052 + 19 + 67 + 20 + 292 + 305) = 111,582 transcripciones quiméricas en humanos, ratones, moscas de la fruta, ratas, peces cebra, vacas, cerdos, y levadura. En la versión actual ampliamos la evidencia de los datos experimentales e incluimos un nuevo tipo de transcripciones quiméricas antisentido del mismo gen confirmadas experimentalmente por RT-PCR, qPCR, secuenciación de ARN y péptidos de especificación de masa. Además, recopilamos 23,167 puntos de corte del cáncer humano con los niveles de expresión de ARN quiméricos confirmados por los experimentos de secuenciación de ARN de extremos emparejados en diferentes tejidos en humanos, ratones y moscas de la fruta.

Este sitio web está optimizado para su uso con los navegadores web de escritorio Google Chrome, Mozilla Firefox u Opera. Si encuentra un problema y no está usando Google Chrome o Mozilla Firefox u Opera, intente usar Google Chrome o Mozilla Firefox u Opera para ver si el problema parece ser específico del navegador.


Fondo

Uva (Vitis vinifera) es el cultivo de frutas más cultivado a nivel mundial. La superficie cultivada de uva es de aproximadamente 7,8 millones de hectáreas con una producción de alrededor de 67,5 millones de toneladas. Las bayas se clasifican principalmente en uvas de mesa (frescas) y uvas de vinificación (vino), así como para varios productos de valor añadido [1]. China es el principal país productor de uva y representa el 14% de la producción mundial de uva [2].

Hay varios procesos metabólicos y de desarrollo que ocurren en los brotes y ramitas de las plantas de uva durante el período invernal. Estos procesos incluyen la síntesis de enzimas, la respiración, la división celular, la fotosíntesis, la producción de estimuladores de crecimiento y la regulación a la baja de inhibidores de crecimiento. La latencia es un mecanismo de control que permite a las plantas perennes leñosas adaptarse a los cambios ambientales estacionales y, por lo tanto, afecta el crecimiento vegetativo y la producción de frutos de la siguiente temporada. Actualmente, el calentamiento global tiene una influencia sustancial en la acumulación de frío invernal y la liberación de letargo de los árboles frutales [3]. Para garantizar una producción de fruta sostenible, es necesario investigar los factores genéticos subyacentes responsables de controlar la latencia [4]. La latencia prolongada es un obstáculo clave para la producción de frutas a gran escala, incluida la uva, en regiones de invierno cálido o templado bajo climas templados y subtropicales [5, 6]. Se han realizado varios estudios para determinar la asociación entre la DE natural y la inducida por sustancias químicas, analizar la expresión génica durante fotoperíodos cortos y largos e identificar el perfil de transcripción del desarrollo de la yema y la señalización de la ruptura de la latencia de la yema en la uva [7-10]. La latencia se clasifica generalmente en tres tipos principales: paradormancia (PD), endodormancia (ED) y ecodormancia (ECD) [11]. La PD es la suspensión del crecimiento de las plantas iniciada por factores externos al meristemo. Es esencialmente el efecto de un órgano sobre otro e implica el predominio de las yemas apicales. La disfunción eréctil está regulada por inhibidores internos del crecimiento, incluso en condiciones favorables sin exposición a temperaturas frías durante un período específico (requerimiento de enfriamiento), los cogollos endodormantes (EDB) no pueden iniciar el crecimiento. Exposure to low temperature (2–9 °C) shifts the ED state of the plant to ECD. ECDBs can break and grow when exposed to suitable growth conditions [12]. When EDB’s chilling requirement are fulfilled, the ED is released. EDBs steadily transition to the ECD state, especially under adverse environmental conditions. Summer buds (SB), which are green in color and small in size and grow on one side of winter buds that have no scales, can be observed after dormancy release during the new growth period and remain active for a short time during the transition from dormancy release to early summer dormancy. Like other perennial deciduous fruit plants, grape undergoes a characteristic dormant period during its growth cycle. In southeast China, grape buds fulfill their chilling requirement in the end of February and blossom in following spring. Inadequate cold accumulation hours during this period lead to irregular flowering, which consequently decreases fruit production.

The investigations have been made on dormancy at physiological as well as molecular levels in different deciduous fruits. MADS-box (DAM) genes associated with dormancy-have been isolated to investigate their expression pattern in some fruit plants during dormancy [12, 13]. Por ejemplo, DAM1 mediante DAM6 have been identified in peach and Japanese apricot [14, 15], while MADS13-1, MADS13-2, MADS13-3, PpMADS1 y PpMADS2 were found in Japanese pear and Chinese white pear (Suli) [16, 17]. The expression profile of these genes during the induction and release of endodormancy indicated that DAMs serve as dose-dependent inhibitors of bud break [15]. Additionally, several other genes are involved in the complex molecular network regulating dormancy in deciduous plants. Therefore, segregating single gene is not sufficient for illuminating underlying molecular processed associated with bud dormancy [13].

Recently, the next-generation sequencing (NGS) technology has uplifted the transcriptomic by allowing the RNA-sequencing using cDNA libraries on a large scale. RNA-seq is a highly efficient and modern tool that involves deep sequencing technologies to generate millions of short cDNA reads which is considerably more efficient than microarray analysis [18]. In previous studies, RNA-seq was successfully applied to investigate dormancy based on direct sequencing of cDNAs in several woody plants using 454-pyrosequencing technology [19]. Moreover, in another study the transcriptomic analysis revealed the dormancy-related regulatory pathways involving photoperiod, hormones and circadian clocks [20–22]. Although previous studies have investigated the physiological as well as the molecular mechanism of bud dormancy using the transcriptomic approach in deciduous fruits as well as other crops [13, 16, 23], no attempt has yet been made to study grape bud dormancy at the transcriptomic level.

This study was undertaken to investigate underlying molecular processes regulating bud dormancy in grape and to develop robust foundation for molecular research. RNA-seq technology was used to categorize and characterize the expression profile of differentially expressed genes (DEGs) during three different grape bud dormancy stages. This novel transcriptome and transcript expression profiling data generated through RNA-seq will offer an improved understanding of underlying molecular process of bud dormancy and will pave the way to identifying key genes involved in dormancy for the ultimate improvement of table grape industry.


Transcription vs Translation

The difference between transcription and translation is that transcription involves the creation of mRNA from DNA whereas translation does the protein synthesis by using the mRNA strands. In molecular biology, the decoding of DNA into mRNA is done by transcription and the development of proteins by RNA is done by translation is defined as the important and central dogma.

The first step in the gene expression is called Transcription where enzyme RNA polymerase copies the genes from the particular segment of the DNA into mRNA (messenger RNA).

DNA bases get bound to the appropriate nucleosides after DNS helix unwinds and then connect to the matching RNA segment of the DNA strand to make a complementary RNA i.e. mRNA.

los traducción is the second step and happens after transcription where mRNA is converted further into the required proteins. In this, mRNA gets attached to ribosomes and further decoded to specific amino acids that form polypeptide by connecting each other, and then makes the protein.


Compare and contrast the structure and functions of DNA and RNA.

DNA and RNA are both essential components of cells, and thus life. The structure of DNA is similar to that of RNA in that these are both made of nucleotides, which in turn are made of the same basic units: a phosphate group, a pentose sugar, a nitrogenous base. The pentose sugars differ between DNA and RNA - DNA has deoxyribose (missing OH group on 2' carbon) while RNA has ribose (has OH group on 2' carbon). Both DNA and RNA nucleotides have one of four possible nitrogenous bases, two of which are pyrimidines and two which are purines. Both DNA and RNA can have cytosine, adenine and guanine as nitrogenous bases - however RNA has uracil as its final base while DNA has thymine. Structurally, single strands of DNA and RNA are similar as nucleotides are linked together by covalent, phosphodiester bonds created between the 5' phosphate group of one nucleotide and the 3' hydroxyl (OH) group of another. However, DNA is typically found in a double-helix format which is antiparallel while RNA is typically found as single-stranded.
RNA and DNA also differ in their functionality. DNA is the means by which all genetic information is stored within the cells, and propagation by semi-conservative replication can allow for the genesis of new cells (meiosis, mitosis) or organisms (fusion of haploid gametes). Thus, DNA is only found in the nucleus and mitochondria where it is super-condensed into chromatin and then organized into chromosomes. By contrast, RNA is created by the process of transcription and enables the process of translation - the expression of genetic information in the form of proteins. This happens in two ways: strands of mRNA code for differing sequences of amino-acids - which form proteins - via the codon code, and some RNA can form translation machinery (ribosomes, tRNA) via secondary double-stranded structures. In the latter case, RNA complementary base-pairing differs to DNA pairing as uracil - instead of thymine - now pairs with adenine.


Ver el vídeo: Transcripción en procariotas y eucariotas V22 (Mayo 2022).


Comentarios:

  1. Edwaldo

    Gracias por la ayuda en esta pregunta, también considero que cuanto más fácil, mejor ...

  2. Dubg

    Puedo buscar la referencia a un sitio con información sobre un tema que te interese.

  3. Abantiades

    Con puro humor.

  4. Daibhidh

    Lo acepto con placer. En mi opinión, esto es relevante, participaré en la discusión. Sé que juntos podemos llegar a la respuesta correcta.

  5. Faegami

    sur)))

  6. Gill

    En mi opinión, admites el error. Puedo probarlo. Escríbeme por PM, hablamos.



Escribe un mensaje