Información

¿Cómo la retención de intrones hace que la transcripción alternativa no sea codificante?

¿Cómo la retención de intrones hace que la transcripción alternativa no sea codificante?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Me enfrenté a una transcripción no codificante que especificaba como una la isoforma de BIN1.

Parece que esta isoforma se generó como resultado de un empalme alternativo con un intrón retenido; estoy en lo cierto? Sin embargo, Ensembl informa que la transcripción tiene 5 exones, ¿podría dejarme saber más sobre este evento? ¿Cómo tiene la transcripción 5 exones y todos no son codificantes? Además, me alegrará saber por qué el organismo o la célula ha retenido esas transcripciones. tienen alguna función? Gracias


Fondo

La regulación de la expresión de genes particulares puede depender de mecanismos que son diferentes del control clásico de transcripción y traducción. los LY6G5B y LY6G6D Los genes codifican proteínas del dominio LY-6, cuya expresión parece estar regulada de forma original, consistente en un evento de retención de intrón que genera, a través de un codón de parada prematuro temprano, un transcrito no codificante, impidiendo la expresión en la mayoría de líneas celulares y tejidos.

Resultados

Las transcripciones no codificantes de MHC LY-6 han demostrado ser estables y muy abundantes en la célula, y no están sujetas a la descomposición mediada sin sentido (NMD). Este evento de retención parece no depender únicamente de las características del intrón, porque en el caso de LY6G5B, cuando el intrón se inserta en el contexto artificial de un plásmido de expresión de luciferasa, se empalma completamente pero estabiliza fuertemente la transcripción de luciferasa resultante. Además, mediante PCR cuantitativa encontramos que las formas retenidas y empalmadas se expresan diferencialmente en tejidos, lo que indica una regulación activa de la transcripción no codificante. El análisis de la base de datos EST reveló que estos genes tienen una vía de expresión alternativa con la formación de quimeras inducidas por transcripción (TIC). Estos datos fueron confirmados por RT-PCR, revelando la presencia de diferentes transcripciones que codificarían las proteínas quiméricas CSNK & # x003b2-LY6G5B y G6F-LY6G6D, en las que el dominio LY-6 se uniría a un dominio quinasa y un dominio similar a Ig. , respectivamente.

Conclusión

En conclusión, los transcritos retenidos por intrones LY6G5B y LY6G6D no están sujetos a NMD y son más abundantes que las formas debidamente empalmadas. Además, estos genes forman transcripciones quiméricas con sus genes 5 'vecinos de la misma orientación. Es interesante el hecho de que los genes 5 '(CSNK & # x003b2 o G6F) experimentan empalme diferencial solo en el contexto de la quimera (CSNK & # x003b2-LY6G5B o G6F-LY6G6C) y no por sí mismos.


Introducción

El empalme alternativo (AS) es un proceso generalizado que afecta a la gran mayoría de genes humanos (Barbosa-Morais et al. 2012 Merkin et al. 2012). Muchos eventos de corte y empalme alternativos (ASE) están regulados para asegurar la producción de isoformas proteicas apropiadas en los entornos celulares correctos. Se han documentado bien numerosos ejemplos de las consecuencias de los ASE sobre la función de pares de isoformas de proteínas (Nilsen y Graveley 2010). Los exones de casete alternativos tienden a afectar regiones de proteínas intrínsecamente desordenadas, sitios de interacciones proteína-proteína y sitios de modificaciones postraduccionales, y los programas de AS tienen la capacidad de reconfigurar las redes de interacción proteína-proteína (Buljan et al. 2012 Ellis et al. al.2012 Yang et al.2016). La importancia de la EA debidamente regulada se ve subrayada por enfermedades humanas como la distrofia miotónica que surgen, no de un empalme aberrante per se, sino de una mala regulación de los programas de desarrollo de la EA, con síntomas clínicos que surgen de la expresión de isoformas de ARNm en etapas inapropiadas de desarrollo. (Cooper et al. 2009). La mala regulación del empalme alternativo también se asocia con cánceres, y se sabe que la expresión anormal o las mutaciones en los factores de empalme contribuyen a la tumorigénesis (Anczukow y Krainer 2016).

Además del papel ampliamente apreciado en la producción de isoformas de proteínas funcionalmente distintas, muchos ASE regulados, a menudo altamente conservados, generan isoformas de ARNm que se canalizan a vías de desintegración como la desintegración mediada sin sentido (AS-NMD) (Ge y Porse 2014 Hillman et al. 2004 Lareau et al.2007 Lewis et al.2003 Weischenfeldt et al.2012). Estos ASE se denominan con frecuencia "no productivos" sobre la base de que una de las isoformas de ARN está destinada a degradarse en lugar de traducirse. Sin embargo, la etiqueta "no productivo" no debe interpretarse como una falta de funcionalidad. En muchos casos, la capacidad de producir una isoforma de ARNm que codifica una proteína o una isoforma de ARNm dirigida por NMD proporciona una función reguladora importante (McGlincy y Smith 2008). Por ejemplo, la transición entre la expresión de los reguladores de corte y empalme estrechamente relacionados PTBP1 y PTBP2, que es importante durante la diferenciación neuronal, se efectúa por un evento AS-NMD en el pre-ARNm de PTBP2 que está regulado antagonísticamente por las proteínas PTBP1 y RBFOX (Boutz et al. 2007 Jangi et al.2014 Makeyev et al.2007). De hecho, la presencia de tales eventos AS-NMD dentro de los pre-ARNm de proteínas reguladoras de empalme permite la autorregulación y la regulación cruzada entre familias de proteínas relacionadas, así como el control por parte de las RBP "maestras", lo que a su vez ayuda a crear robustas redes reguladoras postranscripcionales (Jangi y Sharp 2014).

El AS se clasifica comúnmente en siete tipos de eventos binarios simples: exones de casete, exones mutuamente excluyentes, sitios de empalme 5 ′ alternativos, sitios de empalme 3 ′ alternativos, retención de intrones (IR), exones terminales 3 ′ alternativos y exones 5 ′ alternativos. Además, muchos ASE complejos involucran combinaciones de estos eventos simples (Vaquero-García et al. 2016). De las clases de ASE, la IR ha recibido probablemente la menor atención en humanos y otros mamíferos, al menos hasta hace poco. Esto puede haber resultado en parte debido a la dificultad de determinar inequívocamente que un evento de IR aparente no deriva ni del ADN genómico ni de los intermedios de procesamiento del ARN. En contraste con su papel relativamente descuidado en la expresión génica humana, la IR es el tipo más común de ASE en plantas, hongos y eucariotas unicelulares y, en consecuencia, ha sido apreciado durante mucho tiempo como un mecanismo regulador importante por los investigadores que utilizan estos organismos modelo (Pleiss et al. al.2007 Syed et al.2012). Empalme regulado del intrón 3 del Drosophila La transposasa del elemento P fue uno de los primeros ejemplos de regulación de AS específica de tipo celular con claras consecuencias para la actividad de la proteína codificada (Rio et al. 1986). El empalme del intrón 3 del elemento P en las células germinales produce la transposasa de longitud completa, mientras que la retención del intrón 3 en las células somáticas da lugar a una proteína de unión al ADN más corta que carece de actividad transposasa y actúa como antagonista de la proteína de longitud completa. La transposasa del elemento P también mostró cómo la IR puede regularse de una manera específica de tipo celular a través de represores del corte y empalme del intrón 3 en células somáticas [por ejemplo, (Adams et al. 1997 Horan et al. 2015 Labourier et al. 2001)]. En vista de esta función reconocida desde hace mucho tiempo en muchos otros organismos, la reciente aparición de las diversas funciones de la RI en humanos y otros mamíferos no debería sorprender (Ge y Porse 2014 Wong et al. 2016). Además, además de los eventos regulados fisiológicamente, la IR aberrante puede resultar de mutaciones en sitios de corte y empalme o secuencias reguladoras. Las mutaciones asociadas a la enfermedad en los sitios de empalme se asocian con mayor frecuencia con la omisión de exón (Berget 1995), pero en muchos casos, la RI impulsada por mutaciones puede ser patológica (Wong et al. 2016). Por ejemplo, la RI se ha identificado como una causa común de inactivación de los supresores de tumores en los cánceres (Jung et al. 2015).

La retención de intrones se asocia con mayor frecuencia con la regulación a la baja de la expresión génica a través de NMD (IR-NMD) (Ge y Porse 2014) principalmente porque las secuencias de intrones retenidas que interrumpen el marco de lectura abierto principal (ORF) del ARNm generalmente conducen a la introducción de codones de terminación (PTC). Sin embargo, esta no es la única consecuencia. El destino de un ARNm con uno o más eventos de IR depende de varios factores, incluida la ubicación del evento de IR dentro de la transcripción (Fig.1):

Consecuencias funcionalmente diversas de la retención de intrones. Ilustración esquemática de las consecuencias funcionales de la RI. En todos los casos, la delgada línea negra representa el intrón retenido. El resto de las transcripciones se muestra en naranja, con el ORF principal definido por la isoforma no IR mostrada más ancha, y las UTR mostradas como bloques naranjas más delgados. El límite de 5 ′ se muestra como un circulo rojo. La radiación infrarroja puede conducir a la retención nuclear asociada con la degradación nuclear que involucra al exosoma. Alternativamente, los ARN-IR retenidos en el núcleo pueden ser estables, a la espera de una señal para el corte y empalme postranscripcional. Los IR-RNA citoplasmáticos con IR en el ORF principal pueden ser dirigidos por la maquinaria NMD, debido a la inserción de PTC, o pueden codificar isoformas proteicas de longitud completa. El IR dentro del 5 ′ UTR tiene el potencial de regular el inicio de la traducción de varias formas, más comúnmente reprimiendo la traducción del ORF principal a través de la acción de los ORF ascendentes (uORF), o mediante la estructura secundaria y los 5 ′ UTR más largos, que pueden generar el ARNm sensible a la inhibición por eIF4EBPs [por ejemplo, (Tahmasebi et al. 2016)]. Por el contrario, el IR en el 3 ′ UTR puede regular al alza la estabilidad, porque el empalme de intrones en el 3 ′ UTR puede conducir a NMD (Sun et al. 2010). Además, la RI en el 3 ′ UTR podría introducir elementos reguladores unidos por proteínas o miRNA, que podrían regular la estabilidad y traducción del mRNA de diversas formas (Thiele et al. 2006).

Retención y degradación nuclear.

Retención y almacenamiento nuclear en espera de empalme inducido por señales.

El IR en la UTR 5 'puede insertar un ORF aguas arriba (uORF) u otras características estructurales que pueden activar o reprimir la eficacia de la iniciación de la traducción.

IR en el ORF principal puede dar lugar a PTC que conducen a IR-NMD, o posiblemente a la producción de proteínas truncadas.

El IR en el ORF principal puede mantener el marco de lectura permitiendo la producción de pares de isoformas de proteínas.

Si el intrón es más de

55 nt en el 3 ′ UTR, donde el empalme conduciría a NMD, el IR puede estabilizar el ARN evitando NMD.

IR en el 3 ′ UTR puede introducir cis-elementos que afectan la estabilidad o eficiencia de traducción del ARNm.

Aquí, revisamos el progreso en la comprensión de las contribuciones de la RI regulada en células de mamíferos y destacamos ejemplos de sus diversas funciones en la modulación de la expresión génica. En particular, nos centramos en análisis recientes de todo el transcriptoma, incluidos los de los programas de expresión génica regulados por el desarrollo, en los que la IR desempeña un papel importante.


Fondo

Varias razones hacen que la vid sea particularmente interesante: es la planta frutal más cultivada con aproximadamente 7,5 millones de hectáreas en 2012 (http://www.oiv.int), con una larga historia de domesticación, así como un organismo modelo útil ya que parece haber mantenido la estructura genómica ancestral de las plantas con flores primordiales. La secuencia completa del genoma se obtuvo en 2007 mediante dos proyectos independientes [1, 2]. La disponibilidad de la secuencia genómica brindó la oportunidad de realizar varios estudios de todo el genoma centrados en diferentes aspectos de la biología de la uva, como el desarrollo de las bayas y la respuesta a diferentes estreses bióticos y abióticos [3-10].

Sin embargo, el transcriptoma eucariota, y en particular el transcriptoma vegetal, es mucho más complejo de lo que se creía anteriormente, y el empalme alternativo y los transcritos no codificantes se encuentran entre las principales causas que contribuyen a esta complejidad. Trabajos recientes señalaron la amplia difusión de estos fenómenos en las plantas y su importancia en la expresión génica y la respuesta al estrés [11-14].

El empalme alternativo (AS) es uno de los principales mecanismos que forjan la plasticidad del transcriptoma y la diversidad del proteoma [15]. Diferentes estudios basados ​​en análisis computacional tanto en etiquetas de secuencia expresadas como en secuenciación de ARN de alto rendimiento proporcionan una estimación de la frecuencia de estos eventos. Por ejemplo, se encontró que el 20 & # x0201330% de las transcripciones estaban empalmadas alternativamente en ambos Arabidopsis thaliana y arrozOryza sativa) mediante el empleo de alineaciones EST-genoma a gran escala [15, 16]. Recientemente, la secuenciación profunda del transcriptoma usando secuenciación de ARN de alto rendimiento (RNAseq) aumentó esta estimación, mostrando que más del 60% de los genes que contienen intrones en Arabidopsis se empalman alternativamente [12]. Aunque la mayoría de los eventos de AS de las plantas aún no han sido caracterizados, existe una fuerte evidencia que indica que están regulados espacial y evolutivamente, desempeñando un papel importante en muchas funciones de las plantas, como la respuesta al estrés [17]. Además, dado que los eventos de EA son diferentes a nivel intraespecífico en varias especies de plantas, se sugirió que pueden estar correlacionados con la especialización de nicho resultante de la domesticación en diferentes regiones geográficas [18, 19].

Recientemente, el paisaje transcripcional de células humanas fue investigado ampliamente por el Proyecto Encode [20], revelando que la mayoría de los genes tienden a expresar varias isoformas al mismo tiempo, siendo una isoforma predominante en diferentes tipos de células. Además, un estudio reciente confirmó estas observaciones, mostrando que para el 80% de los genes expresados ​​en cultivos de tejidos primarios, la transcripción principal se expresa a un nivel considerablemente más alto (al menos dos veces) que cualquier otra isoforma [21]. Todavía faltan estudios extensos similares en plantas.

Algunas pruebas emergentes indican que una gran fracción del genoma eucariota se transcribe [22-24] y que una cantidad considerable del transcriptoma está compuesta por ARN no codificante (ncRNA) que puede desempeñar un papel clave como regulador en muchos procesos celulares. . Una clase pobremente caracterizada de ARNn de plantas se compone de ARN largo no codificante (lncRNA), transcripciones similares a ARNm mayores de 200 bases transcritas por ARN polimerasa II, poliadeniladas, empalmadas y localizadas principalmente en el núcleo [25]. En las plantas, sólo se ha realizado una identificación sistemática de transcripciones largas no codificantes para unas pocas especies [13,14,26,27]. En Arabidopsis por ejemplo, usando un método basado en matriz de colas Liu et al. identificaron 6480 transcripciones no codificantes intergénicas largas, 2708 de las cuales fueron confirmadas por experimentos de secuenciación de ARN [13]. Según sus características, los lncRNA se pueden clasificar como transcritos antisentido naturales (NAT), ARN no codificantes intrónicos largos y ARN no codificantes intergénicos largos (lincRNA). Se ha demostrado que algunas de estas transcripciones están involucradas en importantes procesos biológicos como la regulación del desarrollo y la respuesta al estrés, aunque los mecanismos detallados por los que operan son en su mayoría desconocidos [25]. Además, se encontró que varios lncRNAs están involucrados en el desarrollo reproductivo de las plantas [28] y en las respuestas a la invasión de patógenos [13, 14]. Además, se ha observado tanto en plantas [13, 14] como en vertebrados [29, 30] que los lncRNA tienen patrones de expresión dependientes tanto del tejido como del tiempo.

La extensión y complejidad del paisaje transcripcional en plantas aún no está bien caracterizada. Los recientes avances en las tecnologías de secuenciación de ADN de alto rendimiento aplicadas a los análisis de transcriptomas han abierto nuevas y emocionantes posibilidades de investigación [31]. RNAseq se ha aplicado con éxito en varios estudios, incluida la mejora de la predicción de genes [32,33], la identificación de isoformas [11,12,34], la cuantificación de isoformas [35,36], el descubrimiento de transcripciones no codificantes [29,30,37].

Aquí presentamos un estudio en profundidad sobre el transcriptoma de la uva, basado en 124 bibliotecas de RNAseq SOLiD de hojas, raíces y bayas, de diferentes genotipos bajo diferentes condiciones fisiológicas y de estrés.

La alta cobertura de nuestras muestras nos permitió revisar el Vitis vinifera anotación genética y extenderla para incluir isoformas empalmadas alternativas. También se investigó el impacto del empalme alternativo en los sitios objetivo de miARN. Nuestros datos mostraron que el empalme alternativo se correlaciona con el tejido y con los genotipos. Finalmente, desarrollamos una rigurosa tubería para identificar ARN largos no codificantes, que fueron anotados en función de su expresión en diferentes tejidos y condiciones de estrés.


HERRAMIENTAS PARA INVESTIGAR REGULADORES DE RI

Enfoques experimentales utilizados para estudiar reguladores de RI

En el contexto de enfoques experimentales para el estudio de reguladores de RI, es esencial establecer primero métodos para la identificación y cuantificación de RI. Algunos de los elementos reguladores son intrínsecos a los intrones retenidos en sí mismos. Los eventos de corte y empalme alternativos se identifican de forma rutinaria mediante secuenciación de ARN. Para una llamada IR precisa, los protocolos de preparación de bibliotecas y muestras optimizados son esenciales (103). Esto se puede lograr, por ejemplo, asegurándose de que la contaminación por ARN y ADN naciente se elimine mediante el enriquecimiento de poli-A y el tratamiento con ADNasa I, respectivamente. Para los protocolos de lectura corta, la secuenciación de extremos emparejados trenzados es el método preferido y una profundidad de secuenciación alta es crucial para una cuantificación confiable y reproducible de IR (103). Utilizando secuenciación masiva de ARN, se han revelado características secuenciales y estructurales específicas asociadas con intrones retenidos y sus genes hospedadores en varios estudios (37, 39, 51) (Características intrínsecas de la retención de intrones Características extrínsecas y reguladores de la retención de intrones que actúan en trans).

El IR es un evento de transcripción de baja frecuencia y su detección requiere una cobertura y profundidad de lectura adecuadas. Por tanto, la detección precisa de IR a partir de la secuenciación de células individuales es limitada. Para la cuantificación de eventos de IR conocidos, la secuenciación de captura de ARN (CaptureSeq) (104) podría proporcionar una alternativa de rendimiento medio a la validación y cuantificación de IR basada en qRT-PCR. CaptureSeq utiliza un panel personalizado de sondas de oligonucleótidos diseñadas para unir secuencias complementarias específicas de las transcripciones de interés. Como resultado, la profundidad de la secuencia de las transcripciones específicas aumenta notablemente para el mismo número total de lecturas secuenciadas.

Las subsecuencias intrónicas, como los elementos identificadores, pueden dirigir su localización subcelular y, por tanto, actuar como reguladores intrínsecos de la localización del ARNm mediada por IR (105-107). Los reguladores del fenómeno generalizado de la detención de intrones nucleares son en gran parte desconocidos y, por lo tanto, requieren una mayor exploración (108). El aislamiento de los compartimentos subcelulares antes de la llamada IR basada en RNAseq es esencial para determinar la localización subcelular de las transcripciones que retienen intrones (39). Una alternativa de bajo rendimiento al fraccionamiento subcelular / RNAseq están basados ​​en RNA en el lugar técnicas de hibridación (por ejemplo, ARN ISH o smFISH) (109, 110).

Además de la identificación, cuantificación y localización de IR, las técnicas de secuenciación de próxima generación brindan oportunidades únicas para arrojar luz sobre los reguladores intrínsecos y extrínsecos de IR, así como otras formas de empalme alternativo. Por ejemplo, los protocolos de secuenciación de lectura larga, como PacBio Single-Molecule, Real-Time (SMRT) Sequencing o Oxford Nanopore, son técnicas atractivas para estudiar isoformas de transcripciones completas (111-113). El contexto genómico y el impacto de las mutaciones del ADN, como las variantes de un solo nucleótido cerca de los sitios de corte y empalme, se pueden estudiar mediante el perfil del genoma mediante la secuenciación del genoma completo o del exoma completo (45, 114).

Para el análisis de alto rendimiento de reguladores epigenéticos de IR, se puede utilizar la misma caja de herramientas que para el análisis de la regulación génica impulsada epigenéticamente. La secuenciación de inmunoprecipitación de ADN metilado (MeDIP) utilizando anticuerpos monoclonales específicos de 5-metilcitidina (5mC) seguido de análisis de microarrays (MeDIP-Chip) o secuenciación directa (MeDIP-Seq) se ha utilizado como una herramienta valiosa para mapear el ADN metilado a escala genómica . Sin embargo, la secuenciación de bisulfito del genoma completo (WGBS) tiene la capacidad de resolver el estado de metilación de las citosinas con una resolución de base única. El WGBS se puede utilizar para demostrar que la IR puede regularse mediante la metilación diferencial del ADN en promielocitos y granulocitos (39). Se pueden utilizar técnicas de bajo rendimiento, como la PCR específica de metilación (115) con fines de validación.

Ocupación de nucleosomas y secuenciación de metilomas (NOME-Seq) es una técnica WGBS derivada que se utiliza para determinar la huella del posicionamiento de nucleosomas. En resumen, la cromatina nativa se trata con la GpC metiltransferasa M.CviPl antes del tratamiento con bisulfito sódico de ADN y WGBS. METRO.CviPl metila los sitios GpC que no están unidos por nucleosomas (116). Sin embargo, el método más utilizado en la actualidad para determinar la ocupación de nucleosomas en todo el genoma es el ensayo de cromatina accesible a transposasa mediante secuenciación (ATAC-seq) (117) para su preparación de muestras simple y rápida, y menores requisitos de entrada de ADN (118).

Iannone et al. describieron diferencias en la densidad de nucleosomas alrededor de exones empalmados alternativamente (119). Sin embargo, la ocupación de nucleosomas alrededor de intrones retenidos no se ha investigado sistemáticamente hasta la fecha. La regulación dependiente de la estructura de la cromatina del empalme alternativo se ha descrito previamente en el contexto de la formación de bucles de cromatina mediada por el factor de transcripción CTCF (120). Los métodos para el perfil de cromatina abierto incluyen DNase-seq (93) y sus sucesores FAIRE-Seq, ATAC-seq y NicE-seq (121). La secuenciación de inmunoprecipitación de cromatina (ChIP-seq) se puede utilizar para dilucidar el impacto de las modificaciones de histonas en la RI. Usando este enfoque Wei et al. han demostrado que SDG725, una metilasa H3K36 específica de la planta, media la IR específica de la posición en el arroz (77, 89).

Para investigar la configuración general de la cromatina 3D y las interacciones de la cromatina, se utilizan 3C, 4C, 5C-seq, Hi-C y Capture-C. El papel de la proteína organizadora de cromatina CTCF en el empalme alternativo se ha estudiado junto con datos de varias modificaciones de histonas (datos de ChIP-seq, Hi-C y 4C) para mostrar que el uso de exones alternativos puede ser regulado por la organización de cromatina dependiente de CTCF (120 ).

Utilizando datos de secuenciación de ARN de experimentos de eliminación de factores de empalme disponibles en ENCODE (encodeproject.org), se ha demostrado que la eliminación de proteínas de la familia SR desencadena un aumento dramático en el IR, lo que sugiere que muchos eventos de IR dependen de múltiples factores de empalme (proteínas de unión de ARN , RBP), como TIA1, SRSF1 / 7, U2AF2, PCBP1 / 2 y PTBP1 (16) (características extrínsecas y reguladores de retención de intrones que actúan en trans, factores de empalme). La huella de la unión de RBP se puede realizar usando inmunoprecipitación de ARN (bajo rendimiento) o variantes de secuenciación de inmunoprecipitación de entrecruzamiento de ARN (alto rendimiento), como HITS-CLIP, PAR-CLIP e iCLIP (122, 123). Como se indicó, ENCODE ha puesto continuamente conjuntos de datos CLIP-seq a disposición de la comunidad de investigadores y, por lo tanto, proporciona un recurso valioso y creciente para extraer trans-reguladores activos de IR y otras formas de empalme alternativo.

Métodos computacionales para investigar reguladores de IR

Las canalizaciones computacionales personalizadas son esenciales no solo para la detección de infrarrojos (103) sino también para la identificación y el análisis de reguladores de infrarrojos. La identificación confiable de los eventos de IR en los datos de secuenciación de ARN comienza con los pasos de preparación de la muestra y la biblioteca, y el protocolo de secuenciación como se discutió en la sección anterior. El análisis computacional de los datos de secuenciación de ARN incluye un riguroso control de calidad, identificación y cuantificación de la transcripción, seguido de un análisis de empalme alternativo. Estos pasos de análisis han sido revisados ​​recientemente por Conesa et al. (124). Los enfoques de llamada y cuantificación de IR, sin embargo, difieren de los análisis generales de empalme alternativo. En este contexto, los desafíos bioinformáticos en la investigación de regiones intrónicas y las trampas asociadas con el análisis de IR a partir de datos de secuenciación de lectura corta, así como las limitaciones de los enfoques de secuenciación de lectura larga, se han discutido recientemente en otro lugar (103). El software de detección / cuantificación de IR basado en secuenciación de ARN no se ha comparado sistemáticamente hasta la fecha; sin embargo, en la Tabla 2 se proporciona una descripción general de las herramientas disponibles.

Descripción general de los algoritmos de detección / cuantificación de infrarrojos

Herramienta / Recurso. Propósito / método. Sitio web . Referencia.
IRFinderDetección de IR a partir de experimentos de RNA-Seq github.com/williamritchie/IRFinder ( 16)
KmaPaquete R para detección de infrarrojos github.com/pachterlab/kma ( 125)
MISOEl análisis de expresión de isoformas de genes (diferencial) determina los niveles de porcentaje intrónico empalmado en (PSI) genes.mit.edu/burgelab/miso ( 127)
rMATSAnálisis AS diferencial rnaseq-mats.sourceforge.net ( 134)
máquina de montajeIdentificación / cuantificación de AS bioconductor.org/packages/spliceR ( 164)
InteresarCuantificación IR github.com/gacatag/IntEREst ( 126)
PsicómicaCuantificación y análisis de AS bioconductor.org/packages/psichomics ( 135)
LebrelAlgoritmo rápido de detección y cuantificación de AS github.com/timbitz/Whippet.jl ( 165)
SUPPA2Análisis de empalme diferencial rápido github.com/comprna/SUPPA ( 136)
MAJIQDetección y cuantificación de variaciones de empalme local a partir de datos de RNA-Seq majiq.biociphers.org ( 166)
HERRAMIENTAS VASTConjunto de herramientas para perfilar y comparar eventos AS en datos RNA-Seq github.com/vastgroup/vast-tools ( 137)
ASTALAVISTACuantificación y análisis de AS astalavista.sammeth.net ( 138)
JUMCuantificación y análisis de AS github.com/qqwang-berkeley/JUM ( 141)
EmpalmeCazadorCuantificación y análisis de AS bitbucket.org/canzar/splicehunter ( 32)
Herramienta / Recurso. Propósito / método. Sitio web . Referencia.
IRFinderDetección de IR a partir de experimentos de RNA-Seq github.com/williamritchie/IRFinder ( 16)
KmaPaquete R para detección de infrarrojos github.com/pachterlab/kma ( 125)
MISOEl análisis de expresión de isoformas de genes (diferencial) determina los niveles de porcentaje intrónico empalmado en (PSI) genes.mit.edu/burgelab/miso ( 127)
rMATSAnálisis AS diferencial rnaseq-mats.sourceforge.net ( 134)
máquina de montajeIdentificación / cuantificación de AS bioconductor.org/packages/spliceR ( 164)
InteresarCuantificación IR github.com/gacatag/IntEREst ( 126)
PsicómicaCuantificación y análisis de AS bioconductor.org/packages/psichomics ( 135)
LebrelAlgoritmo rápido de detección y cuantificación de AS github.com/timbitz/Whippet.jl ( 165)
SUPPA2Análisis de empalme diferencial rápido github.com/comprna/SUPPA ( 136)
MAJIQDetección y cuantificación de variaciones de empalme local a partir de datos de RNA-Seq majiq.biociphers.org ( 166)
HERRAMIENTAS VASTConjunto de herramientas para perfilar y comparar eventos AS en datos RNA-Seq github.com/vastgroup/vast-tools ( 137)
ASTALAVISTACuantificación y análisis de AS astalavista.sammeth.net ( 138)
JUMCuantificación y análisis de AS github.com/qqwang-berkeley/JUM ( 141)
EmpalmeCazadorCuantificación y análisis de AS bitbucket.org/canzar/splicehunter ( 32)

Descripción general de los algoritmos de detección / cuantificación de infrarrojos

Herramienta / Recurso. Propósito / método. Sitio web . Referencia.
IRFinderDetección de IR a partir de experimentos de RNA-Seq github.com/williamritchie/IRFinder ( 16)
KmaPaquete R para detección de infrarrojos github.com/pachterlab/kma ( 125)
MISOEl análisis de expresión de isoformas genéticas (diferencial) determina los niveles de porcentaje intrónico empalmado en (PSI) genes.mit.edu/burgelab/miso ( 127)
rMATSAnálisis AS diferencial rnaseq-mats.sourceforge.net ( 134)
máquina de montajeIdentificación / cuantificación de AS bioconductor.org/packages/spliceR ( 164)
InteresarCuantificación IR github.com/gacatag/IntEREst ( 126)
PsicómicaCuantificación y análisis de AS bioconductor.org/packages/psichomics ( 135)
LebrelAlgoritmo rápido de detección y cuantificación de AS github.com/timbitz/Whippet.jl ( 165)
SUPPA2Análisis de empalme diferencial rápido github.com/comprna/SUPPA ( 136)
MAJIQDetección y cuantificación de variaciones de empalme local a partir de datos de RNA-Seq majiq.biociphers.org ( 166)
HERRAMIENTAS VASTConjunto de herramientas para perfilar y comparar eventos AS en datos RNA-Seq github.com/vastgroup/vast-tools ( 137)
ASTALAVISTACuantificación y análisis de AS astalavista.sammeth.net ( 138)
JUMCuantificación y análisis de AS github.com/qqwang-berkeley/JUM ( 141)
EmpalmeCazadorCuantificación y análisis de AS bitbucket.org/canzar/splicehunter ( 32)
Herramienta / Recurso. Propósito / método. Sitio web . Referencia.
IRFinderDetección de IR a partir de experimentos de RNA-Seq github.com/williamritchie/IRFinder ( 16)
KmaPaquete R para detección de infrarrojos github.com/pachterlab/kma ( 125)
MISOEl análisis de expresión de isoformas genéticas (diferencial) determina los niveles de porcentaje intrónico empalmado en (PSI) genes.mit.edu/burgelab/miso ( 127)
rMATSAnálisis AS diferencial rnaseq-mats.sourceforge.net ( 134)
máquina de montajeIdentificación / cuantificación de AS bioconductor.org/packages/spliceR ( 164)
InteresarCuantificación IR github.com/gacatag/IntEREst ( 126)
PsicómicaCuantificación y análisis de AS bioconductor.org/packages/psichomics ( 135)
LebrelAlgoritmo rápido de detección y cuantificación de AS github.com/timbitz/Whippet.jl ( 165)
SUPPA2Análisis de empalme diferencial rápido github.com/comprna/SUPPA ( 136)
MAJIQDetección y cuantificación de variaciones de empalme local a partir de datos de RNA-Seq majiq.biociphers.org ( 166)
HERRAMIENTAS VASTConjunto de herramientas para perfilar y comparar eventos AS en datos RNA-Seq github.com/vastgroup/vast-tools ( 137)
ASTALAVISTACuantificación y análisis de AS astalavista.sammeth.net ( 138)
JUMCuantificación y análisis de AS github.com/qqwang-berkeley/JUM ( 141)
EmpalmeCazadorCuantificación y análisis de AS bitbucket.org/canzar/splicehunter ( 32)

Los muchos desafíos en la identificación y cuantificación de RI y cómo superarlos se resumieron en un artículo de revisión reciente (103). En resumen, los factores de riesgo en la identificación y cuantificación de los eventos de IR incluyen el "ruido" transcripcional introducido por la contaminación del ADN o las transcripciones de pre-ARNm sin procesar. IRFinder tiene una rutina incorporada que detecta la contaminación del ADN calculando la relación entre el número de lecturas que se asignan a las regiones intergénicas y el número que se asigna a las regiones de codificación (16). Para minimizar la posibilidad de contaminación por pre-ARNm, las bibliotecas de secuenciación deben enriquecerse con ARN poliadenilado. IRFinder detecta experimentos para los que la biblioteca no se enriqueció para transcripciones de ARNm maduras contando el número de lecturas que se asignan a una lista de genes no poliadenilados (ARN nucleolares pequeños y genes de histonas). La estimación precisa de IR también puede verse afectada por una cobertura baja o muy variable en las regiones tanto intrónicas como exónicas. Esto puede ser causado, por ejemplo, por secuencias repetitivas, tales como elementos nucleares intercalados largos y cortos (LINE y SINE), transposones de ADN, secuencias repetidas en tándem y de baja complejidad. kma tiene filtros de cobertura para identificar y eliminar intrones con cobertura muy variable (125). IntEREst ofrece la posibilidad de excluir regiones repetidas del análisis basándose en una tabla de coordenadas repetidas proporcionada por el usuario (126). IRFinder también tiene una rutina que determina las regiones de escasa capacidad de asignación única. Las regiones mal cartografiadas se excluyen entonces del área del intrón medible (16).

La detección de eventos por infrarrojos se puede realizar mediante enfoques conceptualmente diferentes (i) el enfoque de empalme-unión solamente (ii) el enfoque basado en cobertura o (iii) ambos enfoques combinados (103). Si bien se ha desarrollado software bioinformático para evaluar el empalme alternativo a partir de datos transcriptómicos de alto rendimiento utilizando cualquiera de estos enfoques (Tabla 2), solo las tres herramientas mencionadas anteriormente han considerado peculiaridades específicas importantes para la detección y cuantificación de eventos de IR (16, 125, 126). Para identificar completamente los eventos de IR, por supuesto, es necesario definir primero qué es un intrón. Para ello, IRFinder incluye herramientas para preparar un genoma de referencia, mientras que los intrones se extraen de un archivo gtf determinado. Las regiones entre dos exones en cualquier transcripción se consideran intrones, mientras que las regiones dentro de los intrones cubiertos por una característica no intrónica (por ejemplo, snoRNA o miRNA) se excluyen (16). El paquete R IntEREst (Intron-Exon Retention Estimator) proporciona una función dedicada para preparar un genoma de referencia con la opción de colapsar todas las isoformas de un gen para evitar la asignación de lecturas a cualquier exón omitido alternativamente a sus intrones superpuestos (126). With kma, intronic coordinates can be determined based on a genome reference (FASTA file) and feature file (GTF). kma ensures that none of the overlapping isoforms contain an exon in what is defined as intronic inclusion regions ( 125). kma adds a small region of the neighbouring exons to the intron coordinates to include reads spanning the intron–exon junctions for intron expression quantification.

The key metric that defines the ratio of transcripts retaining an intron to the total number of transcripts of a certain gene isoform is referred to as the IR-ratio by IRFinder or percentage spliced-in (PSI or Ψ) by other tools ( 127). The IR-ratio is the ratio between intronic abundance and intronic abundance plus exonic abundance where the exonic abundance refers to the number of read fragments spliced across the intron and the intronic abundance is the median number of reads that map to an intron. IRFinder excludes overlapping features as well as the highest and lowest 30% of values from the intronic abundance and normalizes both the exonic and intronic abundance for feature length ( 16). kma can be used with existing transcript quantification methods, such as Bowtie ( 128) or eXpress ( 129) to determine the intron abundance in transcripts per million (TPM) or Fragments Per Kilobase of transcript per Million mapped reads (FPKM). kma computes Ψ as the ratio between intron expression and expression of the overlapping transcripts plus the intron expression ( 125). IntEREst quantifies intron expression using the FPKM metrics adapted for intron length and the total number of introns in a gene. IntEREst calculates the relative intron inclusion level (Ψ) based on the number of reads mapped to introns divided by the number of reads spanning the intron (or mapping exons flanking the intron) ( 126).

To determine regulators of IR, it is crucial to first determine differential IR events. For that purpose, several statistical approaches have been implemented: IRFinder has an integrated method to analyse digital transcript profile data with the Audic and Claverie test ( 130). However, this method is suitable only for small sample sizes (between 1 and 3 replicates) ( 16). For larger sample sizes the IRFinder output can be passed on to the R Bioconductor package DESeq2 ( 131), which fits the count data to a negative binomial generalized linear model and employs Wald statistics to determine differential IR events. Similarly, IntEREst ( 126) uses functions from established RNA sequencing analysis tools for differential IR analysis including edgeR ( 132), DEXSeq ( 133) and DESeq ( 131). rMATS uses the binomial distribution for modelling the estimation uncertainty in individual replicates and the normal distribution for modelling the variability among replicates based on inclusion read counts, skipping read counts, and intron inclusion levels ( 134). A likelihood-ratio test is then used to determine whether the difference between the mean inclusion levels is smaller than or equal to the user-defined threshold. Other investigators assume a non-normal distribution of percent spliced-in (PSI) values (similar or identical to IR ratios) and therefore provide the non-parametric Wilcoxon rank-sum, Kruskal–Wallis rank-sum and Fligner–Killeen tests in their psichomics R package together with a selection of multiple-testing correction methods ( 135). In the Python package SUPPA2 for differential splicing analysis, Trincado et al. ( 136) consider two distributions: one for the difference between PSI values amongst biological replicates and one for the different PSI values between conditions together with the average abundance of the transcripts in transcripts per million. PAG values of selected alternative splicing events are computed based on their empirical cumulative distribution function over |deltaPSI|. SUPPA2 includes the Benjamini–Hochberg method for multiple testing correction ( 136). VAST-TOOLs uses Bayesian inference followed by differential analysis of posterior distributions on PSI values (IR ratios). The posterior distributions are estimated using maximum-likelihood fitting ( 137).

Although there are no species or clade-specific software tools for alternative splicing analysis, some are more commonly used in plants and others in vertebrate species. Neither IRFinder nor kma were tested in non-vertebrate species, however, the principles of IR detection and quantification remain the same independent of the clade. The developers of IntEREst confirmed this assumption by successfully testing their software both in human and plant samples. Earlier analyses of AS in plants and other non-vertebrates used expressed sequence tags from shotgun sequencing experiments, which clearly lack behind the single nucleotide resolution that deep transcriptome sequencing offers. ASTALAVISTA is a tool that was used by many plant biologists for alternative splicing analyses ( 138) but can be used for other clades as well.

Nevertheless, a reliable and reproducible IR analysis in any species depends on well-curated genome annotations. The quality of genome annotations typically increases the more widely an organism is studied. In phylogenetic analyses of IR, it is therefore important to consider differences in annotation quality. Examples for quality transcriptome annotation efforts in plants are the Arabidopsis thaliana Reference Transcript Dataset ( 139) and the Gossypium austral full-length transcriptome atlas ( 140). However, similar quality reference transcriptomes have yet to be generated for other non-mammalian species. One approach to account for differences in annotation quality is to generate de novo exon–intron structures from the same number of random reads for each sample ( 8). Wang and Rio have recently developed the tool JUM (junction usage model) for alternative splicing analysis that addresses the problem of poorly annotated genomes by using ‘split’ reads. In this case reads that cannot be completely mapped to one location in the genome are viewed to achieve an annotation-free analysis of alternative splicing (including IR) in metazoan transcriptomes ( 141). A tool that was developed as part of a transcriptome analysis of meiosis in fission yeast is SpliceHunter ( 32), which harnesses full-length transcript sequences produced by long-read sequencing technologies to identify alternatively spliced isoforms. SpliceHunter can be used for other species as well.

Systematic analysis of IR events in RNA sequencing data has revealed conserved intrinsic features of IR regulation in retained introns and intron-retaining transcripts ( 17, 51). A plethora of tool collections, software repositories, or code libraries (e.g. bedtools – bedtools.readthedocs.io BioPython – biopython.org, BioPerl – bioperl.org, Bioconductor – bioconductor.org) are available for the analysis of recurring sequence or structural features in and around retained introns. These include nucleotide or dinucleotide frequencies, intron length, locus and conservation. The maximum entropy model of short sequence motifs proposed by Yeo and Burge can be used to estimate the strengths of donor and acceptor sites in retained and non-retained introns ( 142). Computational analysis of epigenomic IR regulation can be performed analogous to the analysis of epigenomic gene expression regulation by shifting focus to donor and acceptor splice sites rather than transcription start and termination sites. Methods for the analysis of epigenomics data including DNA methylation (e.g. WGBS) ( 143), histone modification (e.g. ChIP-seq) ( 144), chromatin structure (3C-based technologies, MNase-seq, DNase-seq, FAIRE-seq, ATAC-seq) ( 118) data have been critically reviewed before. However, in order to acquire a holistic grasp of IR regulatory mechanisms, integrative ‘omics’ approaches involving these experimental methods should be pursued. Methods for multi-omics data integration and associated challenges have been discussed in recent reviews ( 145–147).

Modelling splicing regulation

The computational prediction of IR events has not been attempted to date, however multiple machine learning approaches have been proposed to predict exon usage. For example, a Bayesian neural network was used to identify the ‘splicing code’, which is comprised of hundreds of RNA sequence and structural features (including cis- elements described in literature) and predicts tissue-specific changes in alternative splicing (exon usage) ( 148). Following this, a deep neural network approach achieved an enhanced performance in predicting alternative splicing patterns ( 149). Based on deep learning and other machine learning approaches a number of tools and algorithms were recently developed that predict cryptic splicing caused by putative genetic variants and their role in rare genetic disorders ( 150–152).

However, all the above-mentioned studies focus on exonic splicing and primarily include cis-acting splicing regulators. An algorithm or tool that predicts IR is currently missing but should be within reach given the recent advances in exon splicing prediction and the identification of mechanisms of IR regulation. While machine learning has been used to predict alternative splicing, systems biology approaches are employed to study the dynamics of splicing regulatory networks using stochastic or deterministic modelling formalisms. Network modelling of splicing regulation has recently been discussed in the context of bioinformatics challenges in determining the effects of epigenetic modifications on alternative splicing ( 153). Splicing regulatory networks include cis- y trans-acting regulators of alternative splicing and their respective splicing targets ( 153). For example, a Bayesian network approach was used to predict the target network of the neuron-specific factor Nova in the mouse brain, comprising ∼700 alternative splicing events ( 154). Similarly, a kinetic model of co-transcriptional alternative splicing was used to predict that transcriptional elongation rates may affect splicing outcomes ( 155).


2.2: RNA processing

Transcription is the mechanism by which the information in genes (DNA) is used to produce RNA. The newly-made RNA, also known as the primary transcript (the product of transcription is known as a transcript) or pre-mRNA, is further processed before it is functional. Transcripts that encode proteins will proceed to the ribosome for translation. In bacterial cells, the mRNA can be translated directly as it comes off the DNA template. In eukaryotic cells, RNA synthesis, which occurs in the nucleus, is separated from the protein synthesis machinery, which is in the cytoplasm. In addition, eukaryotic genes have introns, which are non-coding regions that interrupt the gene&rsquos coding sequence. The primary RNA copied from genes containing introns will also therefore have regions that interrupt the coding sequence of the gene. These regions must be removed before the mRNA is sent out of the nucleus to be used to direct protein synthesis. The process of removing the introns and rejoining the coding sections or exons, of the mRNA, is called splicing. Proteins that interact with the cap, mRNA, and poly(A) tail allow the mature mRNA to be exported through nuclear pores into the cytoplasm for translation.

What are the processing steps for messenger RNAs?

In eukaryotic cells, pre-mRNAs undergo three main processing steps:

  • Capping at the 5' end
  • Addition of a poly(A) tail at the 3' end
  • Splicing to remove introns

Capping

In the capping step of mRNA processing, a methylated-guanosine (7-methyl-G) is linked to the phosphates at the 5' end of the mRNA. The cap protects the 5' end of the mRNA from degradation by nucleases and also helps to position the mRNA correctly on the ribosomes during protein synthesis.

Figure (PageIndex<2>): The mRNA capping structure is a methylated G nucleotide that is linked with triphosphates to the 5 ' nucleotide instead of via a phosphodiester bond.

Poly(A) tail addition

The 3' end of a eukaryotic mRNA is first trimmed, then an enzyme called Poly(A) Polymerase adds a "tail" of about 200 &lsquoA&rsquo nucleotides to the 3' end. There is evidence that the poly(A) tail plays a role in efficient translation of the mRNA, as well as in the stability of the mRNA. The cap and the poly(A) tail on an mRNA indicate that the mRNA is complete (i.e., not defective).

Empalme

Introns are removed from the pre-mRNA by the activity of a complex called the espliceosoma. The spliceosome is made up of proteins and small RNAs that associate to form protein-RNA enzymes called small nuclear ribonucleoproteins or snRNPs (pronounced SNURPS). The splicing machinery must be able to recognize sequences that are specific to splice junctions (i.e., the end of each exon and the start of the next) in order to correctly cut out the introns and join the exons together to make the mature, spliced mRNA.

Introns vs Exons: Which one is "in" ?

  • The word intron comes from the word intervening these are the intervening sequences that break up the coding sequence. You can remember that introns are "in the way" of the coding sequence.
  • The word exon comes from the word expressed these sequences are present in the mature mRNA.

What signals indicate where an intron starts and ends? The base sequence at the start (5' or left end, also called the donor site) of an intron is GU while the sequence at the 3' or right end (a.k.a. acceptor site) is AG. There is also a third important sequence within the intron, called a branch point, that is important for splicing.

Figure (PageIndex<3>): Summary of splicing. Ribonucleoprotein complexes (snRNPs) bind exon-intron boundaries at splice donor and splice acceptor sites. The branch point A nucleotide attacks the 5' splice site cutting the mRNA at that position and forming a loop. The spliceosome joins the end of one exon to the start of the next exon and the intron is excised.

There are two main steps in splicing:

  • In the first step, the pre-mRNA is cut at the 5' splice site (the junction of the 5' exon and the intron). The 5' end of the intron then is joined to the branch point within the intron. This generates the lariat-shaped molecule characteristic of the splicing process
  • In the second step, the 3' splice site is cut, and the two exons are joined together, and the intron is released.
Splicing alternativo

Many pre-mRNAs have a large number of exons that can be spliced together in different combinations to generate different mature mRNAs. Se llama splicing alternativo, and allows the production of many different proteins using relatively few genes, because a single RNA can, by combining different exons during splicing, create many different protein coding messages. Because of alternative splicing, each gene in our DNA gives rise, on average, to three different proteins.

Figure (PageIndex<4>): Splicing and protein diversity

Where does mRNA processing occur?

  1. All three steps occur in the nucleus.
  2. All three steps occur in the cytoplasm.
  3. The cap and tail are added in the nucleus, but splicing occurs in the cytoplasm.
  4. Splicing occurs in the nucleus, but the cap and tail are added in the cytoplasm.

Draw a diagram of a section of DNA that has a gene with three exons and two introns. Draw the corresponding primary transcript and mature mRNA. Label the promoter, transcription start site, exons, introns, splice donors (SD) and splice acceptors (SA), transcription termination, 5' cap, and polyA tail.


Resultados

Csnk2btranscript analysis

Canonical Csnk2kb ORF orthologue sequences from Homo sapiens (NM_001320), Macaca mulata (XM_001112478), Sus scrofa (XM_001928731), Bos tauro (NM_001046454), Rattus norvegicus (NM_031021) and Mus musculus (NM_009975) were analysed in order to find common features among them. Comparative analysis showed a total conservation rate in protein sequence among these six species, except for Mus musculus which presents a unique change in position 57 (V→ E) (Figure 1A). Through RT-PCR analysis, we found five different transcripts for Csnk2b en Homo sapiens, four in Macaca mulata, four in Sus scrofa, five in Bos tauro, two in Rattus norvegicus and three in Mus musculus (Figure 2 and Additional file 1). Only the canonical transcript sequences were on databases, except for Bos tauro for which BtCsnk2b-473 was also present (see Additional file 2: Table S1). We could detect the presence of the canonical Csnk2b transcript in each tested species and tissues (Figure 2), and it was also the isoform expressed at the highest level (data not shown). Además, Csnk2b expression also generated other transcripts (Figure 2) expressed at lower levels (data not shown), but with a remarkable specificity among the analysed tissues in these six species (Figure 2). Some of them presented quite restricted expression patterns, such as the Macaca mulata ones that are only expressed in lung, or the Rattus norvegicus one, expressed only in brain. By contrast, the variants from Sus scrofa, Bos taurus y Mus musculus are broadly expressed. En Homo sapiens, the isoform which retains intron 5 is widely expressed however the other three are only expressed in liver and lung. Through AS these CSNK2B transcripts present exon skipping, alternative 5’ and 3’ splice site and intron retention events (Figure 2) in the different species, which would generate severely truncated or aberrant proteins by using the canonical start codon.

Homo sapiens (Hs) , Macaca mulata (Mam) , Sus scrofa (Ss) , Bos taurus (Bt) , Rattus norvegicus (Rn) and Mus musculus (Mum) ORF alignments. A) Csnk2b: N-terminal region α1-α5 (5-104), juxta-dimer interface region including zinc-finger (105-147) and α6 (163-175), C-terminal region (178-205) including interaction with CSNK2α (175-193) and dimerization (190-205) regions [27], B) Ly6g5b: The conserved cysteines, characteristic for Ly-6 domain, are shown highlighted in grey and their connectivity with interconnected lines. Exon-exon junctions are indicated by inverted triangles. The canonical (or theoretical canonical) sequence for each specie is only shown. The percentage of identity of each sequence respect to the human one is shown as well as the corresponding E values.

Schematic representation of all Csnk2b and Ly6g5b transcripts detected through nested RT-PCR on each analysed tissue for Homo sapiens, Macaca mulata, Sus scrofa, Bos Taurus, Rattus norvegicus and Mus musculus. White boxes represent Csnk2b, Ly6g5b and chimera Csnk2b-Ly6g5b exons. Grey boxes represent intron sequences retained on each transcript. Red boxes indicate canonical isoforms. ORFs are delimited by triangles (ATG codon) and hexagons (Stop codon). Squares at the left or right, represent the presence (black) or absence (white) of expression of each transcript on the indicated tissue. Black arrows indicate Ly6g6b-Csnk2b chimeras that carry structural domains from Csnk2b and Ly6g5b, respectively. The corresponding nucleotide and protein sequences and the accession numbers (EMBL: HE864415-HE864490) are shown in Additional file 1.

Ly6g5btranscript analysis

Canónico Ly6g5b ORF orthologue sequences from Homo sapiens (NM_021221), Macaca mulata (XR_014070), Sus scrofa (XM_001926307), Bos tauro (XM_585827), Rattus norvegicus (NM_001001934) and Mus musculus (NM_148939) were compared (Figure 1B). Although some differences in amino acid sequence can be detected, a LY-6 protein domain conservation in these Ly6g5b orthologues is clearly present (Figure 1B). This domain is composed of

80 amino acids and is characterised by a conserved pattern of eight to ten cysteine residues that have a defined disulfide-bounding pattern [14]. Through RT-PCR analysis, we found four different transcripts for Ly6g5b in Homo sapiens, two in Macaca mulata, three in Sus scrofa, three in Bos tauro, four in Rattus norvegicus and two in Mus musculus (Figure 2 and Additional file 1). The majority of these transcripts were not available on databases even the canonical sequences (see Additional file 2: Table S1). Curiously, the presence of the canonical Ly6g5b transcript was only detected in three of the analysed species (Homo sapiens, Rattus norvegicus y Mus musculus). Similarly to what happened for Csnk2b, different transcript variants are generated for Ly6g5b through AS. These transcripts present a remarkable specificity among the analysed tissues and species, and assuming that they could be translated into proteins starting from the first canonical start codon, only truncated or aberrant proteins could be generated by them. Nevertheless, there is an interesting feature that should be stressed, the retention of the first intron in Ly6g5b transcripts, giving rise to a particular isoform (exon 1, intron 1, exon 2 and exon 3) that is present in all the tissues and analysed species (Figure 2), indicating conservation, and presenting the highest expression levels (data not shown). This isoform contains a PSC after the canonical start codon, in the middle of the retained intron, and therefore should be degraded through control mechanisms like NMD [18, 19]. However this seems not to be the case, as we have previously described in human [16].

Csnk2b-Ly6g5bChimeric transcript analysis

Through RT-PCR analysis, we found ten different Csnk2b-Ly6g5b chimeric transcripts in Homo sapiens, five in Macaca mulata, three in Sus scrofa, ten in Bos tauro, four in Rattus norvegicus and three in Mus musculus (Figure 2 and Additional file 1). Only human Csnk2b - Ly6g5b -1181 was found on databases (see Additional file 2: Table S1). As it happened with Csnk2b and Ly6g5b independent transcripts described above, AS seems to play an important role in generating these chimeras, and results in a set of transcripts that greatly vary in terms of composition and size. Indeed, exon skipping, intron retention and intergenic region retention events are present in these transcripts. The majority of the described chimeras (26/35) have a common characteristic: the total lack of the last exon (exon 7) of the upstream gene (Csnk2b) as well as the first exon of the downstream gene (Ly6g5b). There are also four chimeric transcripts that partially lack Csnk2b last exon (exon 7) (two in Macaca mulata and two in Bos tauro), one that partially maintains Ly6g5b first exon (in Macaca mulata) and four that retain the intergenic regions (three in Rattus norvegicus and one in Macaca mulata). Although chimeras function is still unknown, some authors defend that this kind of fusion might generate bi-functional proteins which would have the properties of both original proteins [23, 26]. Assuming this, we determined the number of chimeric transcripts which conserved the ORF of both Csnk2b y Ly6g5b genes. We found such transcripts in Homo sapiens, Macaca mulata, Sus scrofa y Bos tauro, of which only HsCsnk2b - Ly6g5b -991, MamCsnk2b-Ly6g5b-992 y SsCsnk2b-Ly6g5b-927 (Figures 2, 3 and Additional file 1) maintain the N-terminal functional domains (alpha helices 1 to 6) from Csnk2b (see Figures 1A and 3) [27], such as the acidic loop (aa 55-64) and nuclear localization sequence (aa 9-14 or α1), as well as the LY-6 structural domain (see Figures 1B and 3) [14], allowing the possibility to create potentially bi-functional proteins [26, 28, 29]. These particular transcripts which contain the same exon-intron structure are expressed in different tissues, but commonly in brain. Bos taurus BtCsnk2b-Ly6g5b-737 maintains only exons 1 to 3 of Csnk2b and then would not encode its entire N-terminal domain [27]. We did not find this type of “bi-functional” chimeric transcripts in Rattus norvegicus o Mus musculus (Figura 2).

Homo sapiens (Hs) , Macaca mulata (Mam) , Sus scrofa (Ss) and Bos Taurus (Bt) Csnk2b- Ly6g5b chimeras ORF alignment. Blue and light green colour indicates Csnk2b and Ly6g5b domains, respectively. Exon-exon junctions are indicated by inverted triangles. The conserved cysteines, characteristic for Ly-6 domain, are shown highlighted in grey and their connectivity with interconnected lines. The percentage of identity of each sequence respect to the human one is shown as well as the corresponding E values.

It is interesting to note that several (23/35) chimeric transcripts could encode Csnk2b truncated proteins (7/35) or with modifications in their C-terminus (16/35). los CSNK2B C-terminal part is involved in homodimerization and binding to CSNK2A subunit (see Figure 1) [27]. Some of these detected chimeric transcripts are generated by replacing the canonical sequence of exon 7 by sequences encoded by total or partial exon 2 or 3 of Ly6g5b but not corresponding to LY-6 amino-acid sequences due to changes in the reading frames. These are chimeras HsCsnk2b-Ly6g5b-1181, MamCsnk2b-Ly6g5b-1218, SsCsnk2b-Ly6g5b-728, MumCsnk2b-Ly6g5b-979 y MumCsnk2b-Ly6g5b-1108, with variable tissue distribution, except MumCsnk2b-Ly6g5b-979 that is expressed in the four tissues. Other transcripts are altered on Csnk2b exon 6 or 7, lacking the zinc-finger domain, α6 and C-terminal regions of CSNK2B (see Figure 1), such as MamCsnk2b-Ly6g5b-1141 (only expressed in brain) and BtCsnk2b-Ly6g5b-1049 (expressed in brain and lung) which maintain the same exon-intron structure (lack of Csnk2b exon 6 and Ly6g6b exon 1), and SsCsnk2b-Ly6g5b-538 (expressed in the four tissues) (see Figure 2). In addition, there are some chimeric transcripts that would encode a complete CSNK2B protein considering that they contain all exons (1-7) of Csnk2b including the stop codon and in which the Ly6g5b nucleotide sequences will act as 3´ UTRs. Estos son MamCsnk2b-Ly6g5b-1331, MamCsnk2b-Ly6g5b-2338, BtCsnk2b-Ly6g5b-1239, RnCsnk2b-Ly6g5b-2050, RnCsnk2b-Ly6g5b-2275 y RnCsnk2b-Ly6g5b-2531. They present variable tissue distribution and exon-intron structure (see Figure 2).

Csnk2b, Ly6g5b y Csnk2b -Ly6g5bChimera protein analysis

In order to analyse post-translational modifications and sub-cellular localisation of human CSNK2B, LY6G5B and CSNK2B-LY6G5B proteins, we over-expressed them in the COS7 cell line (Figure 4), using a double tag strategy. Thus, CSNK2B, LY6G5B and CSNK2B-LY6G5B proteins were C-terminally tagged by adding a Hisx6 tag. On the other hand, N-terminal V5 epitope was added upstream the first ATG to CSNK2B and CSNK2B-LY6G5B proteins, but due to the presence of a signal peptide in LY6G5B [13] and in order to tag the mature LY6G5B protein (Figure 4A) the V5 epitope tag was inserted after the signal peptide. Western blot analysis using anti-V5 or anti-PentaHis antibodies showed interesting results. Anti-V5 antibodies showed two close intense bands for CSNK2B protein of the estimated size (Figure 4B). These two bands could correspond to post-translational modifications of CSNK2B such as phosphorilation [30]. Para LY6G5B, also two clear bands were also present, in agreement with previous results [14]. Interestingly, anti-V5 antibodies western-blot analysis showed a single discrete band of the predicted size for CSNK2B-LY6G5B protein, indicating lack of post-translational modifications.

Human CSNK2B, LY6G5B and CSNK2B-LY6G5B chimeric protein characterisation. Schematic representation of A) V5 and Hisx6 double tag strategy. V5 (red box) and Hisx6 (yellow box) epitopes are shown. Exon numbers are indicated. B) Western-blot analysis showing in vitro expression of CSNK2B, LY6G5B and CSNK2B-LY6G5B chimera double tagged proteins. GAPDH expression is shown as internal control. C) Immunofluorescence experiments in permeable (P) and non permeable (NP) conditions showing CSNK2B, LY6G5B and CSNK2B-LY6G5B chimeric protein cellular distribution.

On the other hand, anti-PentaHis antibodies showed similar pattern for CSNK2B protein to that showed by anti-V5 antibodies, but no signal of LY6G5B protein or CSNK2B-LY6G5B protein was detected (Figure 4B). This lack of detection on LY6G5B could be due to a C-terminal processing cleaving also the Tag. This cleavage signal sequence would also be present in CSNK2B-LY6G5B protein and for that also prone to be processed.

Celular CSNK2B protein distribution has been described before in cytoplasm, nuclei, and other organelles [21]. Our results, through immunoflourescent confocal microscopy experiments by using anti-V5 antibodies under permeabilised conditions, showed mainly cytoplasmic cellular CSNK2B protein distribution, in agreement with previous data [21]. Under the same conditions, LY6G5B showed a protein distribution clearly related with ER pattern, and not extracellular staining, as previously described [14]. Here, for the first time, we show CSNK2B-LY6G5B protein distribution, which is quite similar to the one presented by CSNK2B and which clearly differs from the one of the LY6G5B proteína.

Aunque el LY6G5B protein belongs to a GPI-anchored protein family, it has not been found to be located on the outside of the cellular membrane [14]. In addition, it is known that CSNK2B can be exported to the external side of the cellular membrane [31], and CSNK2B-LY6G5B presenta CSNK2B domains needed for its exportation to cell surface and/or its excretion, as well as a mature Ly-6 domain (Figure 3). To know whether CSNK2B-LY6G5B could be on the cell surface we carried out two experimental strategies. The first one consisted of immunoflourescent confocal microscopy experiments under non-permeabilised conditions. Our results showed the absence of CSNK2B, LY6G5B al igual que CSNK2B-LY6G5B chimeric proteins in the cell surface (Figure 4C), in COS 7 cells. The second one was to test CSNK2B, LY6G5B y / o CSNK2B-LY6G5B proteins presence in supernatant by western-blot experiment. It was not possible to observe expression of these proteins in the supernatant, either when loaded directly on a gel or when TCA-precipitated (data not shown).


Abreviaturas

Mutually exclusive 3′ UTRs

Mutually exclusive 5′ UTRs

Alternative 3′ splice site

Alternative 3′ splice site and exon skipping

Alternative 5′ splice site

Alternative 5′ splice site and exon skipping

Alternative splice Junction associated AS events

Differentially expressed genes

Intron Rentention associated AS event

Reads per kilo base per million mapped reads

Real-time Polymerase Chain Reaction


CONCLUSION AND PERSPECTIVE

IR is regulated at multiple levels, with specific molecular mechanisms awaiting further clarification

The phenomenon of IR is a conserved, orchestrated mechanism which is widespread across taxa. It plays a pivotal role in fine-tuning gene expression at the post-transcriptional level ( 44). Nonetheless, an understanding of the regulation of intron splicing is still far from complete and key players of IR regulation remain to be uncovered. For instance, the presence of a wide range of small RNAs (including miRNAs, splice-site RNAs, etc.) might directly affect IR by interacting with nascent pre-mRNA at the splice junction. The binding of these small RNAs adjacent to splice sites would prevent recognition of the intron as a prelude to its removal by the spliceosome. Indeed, during mouse granulopoiesis the level of IR increases upon differentiation ( 39) and that nuclear-enrichment of miRNAs is associated with hematopoietic differentiation ( 156). It is possible that the level of IR could be directly modulated by the nuclear localization of these miRNAs.

In addition, RNA editing can lead to alternative splicing either directly ( 157) or indirectly as in the case of the alternative splicing regulator Nova1, in which protein stability is increased through an amino acid substitution enabled by A-to-I editing ( 158). Evidence suggests that the double-stranded RNA-specific adenosine deaminase (ADAR2) can even modulate its own expression by editing an AA dinucleotide to an AI dinucleotide. The inosine is recognized by the splicing machinery as guanosine. ADAR2 is thus creating an alternative 3′ acceptor site in its own pre-mRNA ( 159). Most A-to-I editing sites reside in introns and 3′ UTR sequences. Alternative splice sites created by intronic RNA editing results in partial intron inclusion in mature mRNA transcripts ( 157).

‘Yet to be discovered’ roles of IR

While many aspects of IR regulation remain uncertain, the inventory of the roles of IR in normal and disease biology is steadily expanding. The genetic paradox recently uncovered where, in a context of a gene knockout, a molecular mechanism activates the transcription of genes related to the inactivated gene has opened new possibilities in the potential roles of IR ( 160, 161). Indeed, this genetic compensation mechanism is specifically triggered when mutation generating PTCs result in the degradation of the transcript via NMD. Transcripts retaining introns often contain one or more PTCs, which then initiate their degradation by NMD. Thus, PTC-containing intron-retaining transcripts could potentially trigger the up-regulatory feedback response known as nonsense-induced transcriptional compensation (Figure 3B). IR could also be a powerful asset under stress conditions (e.g. starvation). Indeed, as mentioned in the introductory section, recent studies ( 5, 6) have proposed a mechanism in yeast whereby spliced introns may ‘clutter up’ the spliceosome apparatus, thus preventing it from splicing newly transcribed introns and expending energy under starvation conditions. Additionally, processed introns would also prevent the expression of ribosomal protein genes thereby decreasing protein production. In nutrient-poor environments, intron-retaining transcripts could swiftly provide a source of stable introns to interact with the spliceosome and reduce energy consumption (Figure 3D). Furthermore, new candidate tumour-suppressor genes that are inactivated by intronic polyadenylation in leukemia have been described ( 162). Thus, a new intriguing facet of IR could be its role to act as a source of alternative poly-adenylation sites (Figure 3C).

The ‘yet to be discovered’ roles of IR and possible implications for cancer. (A) Acting as competing endogenous RNA or miRNA sponges, retained introns harbouring MREs might divert miRNAs away from their canonical target. MRE, miRNA response element UTR, untranslated region. (B) Compensatory feedback after degradation of PTC-containing IR transcript via NMD. NMD – nonsense mediated decay COMPASS – Complex Proteins Associated with Set1 Upf3 – nonsense-mediated mRNA decay protein 3. (C) Acting as an alternative source of polyadenylation sites to generate truncated protein isoforms. pA – polyadenylation site. (D) Source of stable introns interacting with the spliceosome wherein cancer cells survive under starvation conditions.

The ‘yet to be discovered’ roles of IR and possible implications for cancer. (A) Acting as competing endogenous RNA or miRNA sponges, retained introns harbouring MREs might divert miRNAs away from their canonical target. MRE, miRNA response element UTR, untranslated region. (B) Compensatory feedback after degradation of PTC-containing IR transcript via NMD. NMD – nonsense mediated decay COMPASS – Complex Proteins Associated with Set1 Upf3 – nonsense-mediated mRNA decay protein 3. (C) Acting as an alternative source of polyadenylation sites to generate truncated protein isoforms. pA – polyadenylation site. (D) Source of stable introns interacting with the spliceosome wherein cancer cells survive under starvation conditions.

In cancer where IR is dysregulated (up-regulated in most cancers analysed by Dvinge et al. ( 46)), the consequences of the variation of IR level might be more dramatic than previously anticipated. Indeed, as portrayed in Figure 3, the accumulation of IR transcripts could exacerbate the effect of the ‘yet to be discovered roles of IR’. For instance, an increase of IR transcripts could have a greater ‘sponging’ effect on miRNAs, which could relieve oncogenes from miRNA-mediated suppression (Figure 3A). In addition, intron-containing transcripts, potentially harbouring alternative polyadenylation sites, could generate truncated proteins with oncogenic activity (Figure 3C). Furthermore, in order to divide indefinitely, cancer cells must pace nutrient intake. Cancer cells may adapt and survive in an environment deprived of nutrients and the up-regulation of IR transcripts, which would provide a rapid source of stable introns interacting with the spliceosome, might be a way for cancer cells to thrive even under starvation conditions (Figure 3D).


Difference Between RNA Splicing and Alternative Splicing

Definición

RNA splicing refers to a modification of the nascent pre-messenger RNA (pre-mRNA) transcript in which introns are removed and exons are joined prior to translation. Whereas, alternative splicing refers to a process that enables a messenger RNA (mRNA) to direct synthesis of different protein variants (isoforms) that may have different cellular functions or properties. These defintions explain the fundamental difference between RNA splicing and alternative splicing.

Función

RNA splicing splices the exons of the primary RNA transcript while alternative splicing splices the exons in the primary RNA transcript, forming differential combinations of exons. Hence, this is the functional difference between RNA splicing and alternative splicing.

Exons

Moreover, the mature mRNA produced by RNA splicing contains all the exons in the primary transcript while the mature mRNAs produced by alternative splicing do not contain every exon of the primary RNA transcript.

Results in

Another difference between RNA splicing and alternative splicing is the outcome of the splicing. RNA splicing results in mRNA molecule, which can translate into a functional protein while alternative splicing results in different mRNA variants, which can translate into different protein isomers.

Importancia

The difference between RNA splicing and alternative splicing based on their importance is that the RNA splicing brings the protein coding region together by removing the non-coding regions from the primary transcript while alternative splicing increases the informational diversity and the proteomic diversity of the cell.

Conclusión

RNA splicing is the process of ligating the exons of the eukaryotic pre mRNA by removing the introns. On the other hand, alternative splicing is the production of multiple mRNAs from a single pre mRNA by the differential combination of exons. The main function of RNA splicing is to produce a mature mRNA, which can be translated into a functional protein. Conversely, alternative splicing produces protein isomers with differential functioning. Therefore, the main difference between RNA splicing and alternative splicing is their mechanism and importance.

Referencia:

1. E, Zhiguo et al. “Splicing and alternative splicing in rice and humans” BMB reports vol. 46,9 (2013): 439-47. Disponible aquí
2. “RNA Splicing.” MoBio, Web Books Publishing, Available Here
3. Wang, Yan et al. “Mechanism of alternative splicing and its regulation” Biomedical reports vol. 3,2 (2014): 152-158. Disponible aquí

Imagen de cortesía:

1. “RNA splicing diagram en” By LadyofHats – made myself based basically in the information found in wikipedia plus :[1]and[2]. (Public Domain) via Commons Wikimedia
2. “RNA splicing reaction” By BCSteve – Own work (CC BY-SA 3.0) via Commons Wikimedia
3. “DNA alternative splicing” By National Human Genome Research Institute – http://www.genome.gov/Images/EdKit/bio2j_large.gif (Public Domain) via Commons Wikimedia
4. “RNA Splicing” By OpenStax CNX (CC BY 3.0) via OpenStax Collage

Biografía del autor: Lakna

Lakna, licenciada en Biología Molecular y Bioquímica, es Bióloga Molecular y tiene un gran interés en el descubrimiento de cosas relacionadas con la naturaleza.


Ver el vídeo: 7. GENES CODIFICANTES EXONES y NO CODIFICANTES INTRONES BIOLOGIA MOLECULAR (Mayo 2022).


Comentarios:

  1. Kristoffer

    ¡Recordaré eso! Voy a pagar con usted.

  2. Sedgewick

    Aquí entre nosotros, en mi opinión, es obvio. He encontrado la respuesta a su pregunta en google.com

  3. Mark

    No se me acerca.

  4. Panya

    En mi opinión es obvio. Intenta buscar la respuesta a tu pregunta en google.com

  5. Meztizahn

    Creo que te ayudarán a encontrar la solución adecuada. No te enfades.

  6. Callum

    pensamiento muy útil



Escribe un mensaje