Información

¿Cuál es un software adecuado para realizar análisis GWAS de VCF de tuberculosis y datos fenotípicos?


¿Cuál es un software adecuado para realizar análisis GWAS de FVC de tuberculosis y datos de fenotipo? Se necesita un software que acepte el archivo VCF y los datos del fenotipo como entrada y produzca una asociación de todo el genoma con la generación de un informe.


Fronteras en genética

Las afiliaciones del editor y los revisores son las últimas proporcionadas en sus perfiles de investigación de Loop y pueden no reflejar su situación en el momento de la revisión.


  • Descargar Articulo
    • Descargar PDF
    • ReadCube
    • EPUB
    • XML (NLM)
    • Suplementario
      Material
    • EndNote
    • Administrador de referencias
    • Archivo de texto simple
    • BibTex


    COMPARTIR EN

    Resumen del autor

    Las moléculas de ARNm que codifican proteínas terminan con un tramo largo de adenosinas, llamado cola poli (A). La cola de poli (A) contribuye a la estabilidad de las moléculas de ARNm, su traducción a proteínas y su importación desde el núcleo al citoplasma. El proceso de agregar esta cola a los ARNm se llama poliadenilación, y el sitio de terminación en los ARNm en el que se agrega la cola poli (A) se llama sitio poli (A). En los últimos años se hizo evidente que la gran mayoría de los ARNm de genes humanos contienen varios sitios poli (A) alternativos y su uso genera diferentes isoformas de ARNm que difieren en su estabilidad y eficiencia de traducción. Por lo tanto, la poliadenilación alternativa (APA) está emergiendo como un mecanismo novedoso e importante, aunque poco explorado, que regula la expresión génica. La elección entre sitios p (A) alternativos en una molécula de ARNm está regulada por secuencias reguladoras ubicadas dentro de una región del ARNm llamada región no traducida 3 '(3'UTR). Un desafío importante en la investigación genética humana actual es comprender cómo las variantes genéticas comunes afectan la salud de los individuos. En nuestro estudio, identificamos sistemáticamente docenas de variantes genéticas que afectan la elección entre sitios p (A) alternativos y demostramos que, por eso, estas variantes influyen en el nivel de expresión de los genes diana. Nuestros resultados ayudan a iluminar un mecanismo novedoso por el cual las variantes genéticas que son comunes en la población afectan diferentes rasgos, incluido nuestro riesgo de desarrollar enfermedades.

    Citación: Shulman ED, Elkon R (2020) Identificación sistemática de SNP funcionales que interrumpen las señales de poliadenilación de 3'UTR. PLoS Genet 16 (8): e1008977. https://doi.org/10.1371/journal.pgen.1008977

    Editor: Andreas Gruber, REINO UNIDO

    Recibió: 24 de septiembre de 2019 Aceptado: 1 de julio de 2020 Publicado: 17 de agosto de 2020

    Derechos de autor: © 2020 Shulman, Elkon. Este es un artículo de acceso abierto distribuido bajo los términos de la Licencia de Atribución Creative Commons, que permite el uso, distribución y reproducción sin restricciones en cualquier medio, siempre que se acredite el autor y la fuente originales.

    Disponibilidad de datos: Todos los datos relevantes están dentro del manuscrito y sus archivos de información de respaldo.

    Fondos: RE. Beca de la Fundación de Ciencias de Israel no. 2118/19 DIP Proyecto de cooperación entre Alemania e Israel (DFG RE 4193 / 1-1), fondo de Bernard Jacobson - TAU, ED.S Centro Edmond J. Safra de Bioinformática de la Universidad de Tel Aviv. Los patrocinadores no tuvieron ningún papel en el diseño del estudio, la recopilación y el análisis de datos, la decisión de publicar o la preparación del manuscrito.

    Conflicto de intereses: Los autores han declarado que no existen intereses en competencia.


    Resultados

    Historia demográfica de la población

    El número de individuos sacrificados anualmente, que se utilizó como indicador de la abundancia de la población, mostró que se habían producido tres caídas de población en los últimos 20 años (Fig. 1). Se sacrificaron 1186 animales, 755 de ellos (63,7%) en los últimos 10 años (Cuadro S1). Con respecto a la prevalencia de TB, se observó una tendencia creciente a lo largo del tiempo (Fig. 1). En las primeras cuatro temporadas (2002/03 a 2005/06), un promedio del 45% de los individuos analizados tenían TB, que aumentó aún más al 83% en las últimas tres temporadas (2009/10 a 2011/12). La población de jabalíes estudiada representó un grupo genético uniforme y evidenció una falta de hibridación con razas de cerdos comerciales / domésticos y poblaciones de jabalíes del norte de Europa en los análisis de PCA (Fig. S1) y ESTRUCTURA (Fig. S2). Además, no hubo evidencia de subestructura poblacional dentro de la población de jabalíes muestreada, tanto al comparar individuos infectados / no infectados (FS T = 0,00) e individuos de diferentes períodos de tiempo (FS T = 0,00) (Fig. S3). Los cálculos del factor de inflación del genoma también revelaron una ausencia de subestructura de población dentro de nuestra población muestreada (Fig. S4). La perspectiva histórica del tamaño efectivo de la población (Nmi), calculado utilizando los datos de SNP, mostró una disminución progresiva en Nmi en las generaciones pasadas (Fig. 2).

    Gráfico que muestra la abundancia de la población de jabalíes (línea discontinua) y la prevalencia de tuberculosis (línea continua) estimada para cada temporada (número de individuos = #) a lo largo del programa monitoreado implementado en la reserva y el período de muestreo, respectivamente. También se indican los tres choques de población.

    Trayectorias históricas del tamaño efectivo de la población (Nmi) de la población de jabalíes inferidos a partir de datos genómicos de las generaciones pasadas.

    Asociaciones de genoma completo (GWAS), prueba de validación y expresión de genes candidatos

    Se realizaron asociaciones de todo el genoma en individuos infectados vs. no infectado con MTC y en individuos del 2002/06 vs. Períodos de tiempo 2009/12. En cada GWAS, realizamos un análisis de casos y controles estándar y un análisis de casos y controles estratificado. En el último análisis, agrupamos a los individuos por clase de edad y período de tiempo / resultado de TB para tener en cuenta sus posibles efectos en los modelos estadísticos. Un corte empírico en el valores p La distribución se asumió en GWAS (etapa de descubrimiento) para seleccionar los SNP diferenciados más altos, ya que ninguno de los SNP fue significativo después de la corrección de Bonferroni (valores p & lt 1,69E-06). El umbral considerado (valor p & lt 1 × 10E-4), que representa el 0,03% superior de la valores p obtenidos, seleccionaron los ocho SNP diferenciados más altos para su posterior validación (Fig. 3). En este análisis con un gran conjunto de datos, algunos de estos SNP revelaron diferencias estadísticamente significativas en la frecuencia alélica entre grupos de animales después de la corrección de Bonferroni (valor p = 6,25 × 10 −3). además, el valores p de GWAS y las pruebas de validación se combinaron, y el conservador inicial valor p de 1,69E-06 se consideró como un umbral de significación. Y finalmente, algunos de los genes cercanos a los SNP diferenciados se investigaron más a fondo en un gran conjunto de datos utilizando la expresión de ARN. Estos hallazgos se describen detalladamente en las siguientes secciones para cada GWAS.

    Diferenciación de frecuencias de alelos menores (MAF) para el polimorfismo de nucleótido singular (SNP) identificado en análisis de asociación de todo el genoma (GWAS). Las diferencias de MAF se muestran entre (a) períodos de tiempo (2002/06 frente a 2009/12) y (B) resultado de la tuberculosis (TB) (no infectado frente a infectado). La ubicación de cada SNP en el ensamblaje del genoma porcino. Sus scrofa 10.2, y también están representados los genes más cercanos. Los genes candidatos seleccionados para los análisis de expresión génica de ARNm se indican en negrita.

    Individuos infectados versus no infectados con MTC

    Los tres SNP (rs81423166, rs81388748 y rs80904044) con las frecuencias alélicas divergentes más altas (menor valores p) entre los individuos infectados y no infectados con MTC se seleccionaron inicialmente del GWAS clásico (análisis de casos y controles estándar y estratificado) (Fig. 4). Cuando estos SNP se validaron en un gran conjunto de datos, el SNP rs81388748 fue el único que reveló un valor p por debajo del umbral de significación considerado (valor p & lt 6,25 × 10 −3). Combinando el valores p de GWAS y prueba de validación, el SNP rs81423166 fue el único que mostró un valor p & lt 1,69E-06. La variante de polimorfismo (A) de este SNP tuvo menores probabilidades de tener TB (OR = 0,235-0,230, resultado combinado para los análisis estándar y estratificado, respectivamente) (Tabla 1). Este SNP, ubicado en el cromosoma 10 del ensamblaje del genoma porcino 10.2, está flanqueado por varios genes, incluido el receptor del factor de crecimiento BDNF / NT-3 (BDNF / NT-3) y el receptor de tirosina quinasa neurotrófico, tipo 2 (NTRK2) (Fig. 3). Los análisis de expresión de ARNm de estos genes revelaron diferencias estadísticamente significativas en la expresión génica entre períodos de tiempo (Tabla 2), aunque no se encontraron asociaciones significativas entre las variantes de SNP y la expresión génica (Tabla S2). En cuanto al SNP rs81388748, y a pesar de que no se encontró un resultado significativo en las pruebas combinadas, la variante de polimorfismo (A) tuvo altas probabilidades de tener TB (OR = 5.116-5.189) (Tabla 1). Entre los genes más cercanos a este SNP, solo uno tenía una función biológica conocida, el miembro de la superfamilia de inmunoglobulinas 21 (IGSF21) (Fig. 3). La expresión de IGSF21 gen fue mayor durante 2002/06 (período de menor prevalencia de TB) que en 2009/12 (Tabla 2). Además, la variante (A) tenía una expresión génica significativamente menor (media = 0,270, IC del 95% = 0,172-0,368) que la variante (C) (media = 0,392, IC del 95% = 0,305-0,479) (Tabla S2) . Además, un análisis de expresión detallado de los tres genes descritos anteriormente (IGSF21, BDNF / NT-3, NTRK-2) se realizó considerando la clase de edad y el período de tiempo / resultado de TB. Estos análisis revelaron diferentes patrones de expresión génica (Fig. S5 y Tablas S3, S4 y S5), concretamente para BDNF / NT3 Se observaron diferencias significativas para los individuos jóvenes / adultos e infectados / no infectados entre los períodos de tiempo (regulado al alza en 2002/06).

    Gráfico de Manhattan que muestra los resultados de todo el genoma [−log10 (P)] del estándar (a) y estratificado (B) análisis de asociación entre individuos infectados y no infectados con Complejo Mycobacterium tuberculosis (MTC).

    2002/06 frente a períodos de 2009/12

    Los cinco SNP (rs81465339, rs81455206, rs81333725, rs81394585 y rs80966661) con las frecuencias alélicas divergentes más altas (menor valores p) entre períodos de tiempo (2002/06 vs. 2009/12) se seleccionaron inicialmente de los análisis de casos y controles estándar y estratificado (Fig.6). Cuando estos SNP se validaron en un conjunto de datos más grande, los SNP rs814665339, rs81394585 y rs80966661 mostraron un valor p & lt 6.25 × 10 −3 (Tabla 1). Combinando el valores p de GWAS y prueba de validación, los SNP rs814665339 y rs81394585 tenían un valor p por debajo del umbral de significación considerado (pag & lt 1,69E-06). El SNP rs81465339 tuvo la mayor diferencia de frecuencia alélica, con la variante (A) asociada con menores probabilidades (OR = 0,123–0,128) de pertenecer a 2002/06, período con menor prevalencia de TB (Tabla 1). Este SNP está estrechamente flanqueado por LOC102164072 gen para el que no hay información sobre su función biológica (Fig. 5). Por otro lado, la variante (A) de rs81394585 SNP, ubicada cerca de CDH8, se asoció con menores probabilidades de pertenecer a 2002/06 (OR = 0,168-0,170) (Tabla 1). Finalmente, y a pesar de que no se encontró resultado significativo en las pruebas combinadas, la variante (A) del rs80966661 SNP, que se ubica dentro del ATP9A y cerca de los genes NFATC2, se asoció con menores probabilidades de pertenecer a 2002/06 (OR = 0,081-0,107). Los niveles de expresión de ARNm variaron significativamente entre períodos de tiempo para LOC102164072 y ATP9A genes (Tabla 2). LOC102164072 tenían niveles más altos de ARNm (regulado al alza) durante 2002/06 (período de menor prevalencia de TB) en comparación con 2009/12, mientras que ATP9A gen tenía el patrón inverso (regulado a la baja en 2002/06 en comparación con 2009/12). El análisis detallado de la expresión génica por clase de edad y período de tiempo / resultado de TB reveló patrones diferentes (Fig. S5 y Tablas S3, S4 y S5). Tiempo LOC102164072 gen mostró diferencias significativas entre períodos de tiempo (regulado al alza en 2002/06) para adultos, los niveles de expresión de ATP9A varió solo para adultos infectados con MTC (regulado a la baja en 2002/2006). Aunque no se observaron resultados significativos para rs81333725 SNP en las pruebas de validación y combinadas, los niveles de expresión del gen más cercano RXFP1 fueron mayores durante 2002/06 (período de menor prevalencia de TB) que 2009/12 (Tabla 2). La variante (C) de este SNP se asoció con menores probabilidades de pertenecer a 2002/06 (OR = 0,11, IC del 95%: 0,03-0,45). De hecho, la variante (C) se asoció significativamente con un mayor nivel de expresión génica (media = 1,057, IC del 95% = 0,792-1,322) en comparación con la variante (A) (media = 0,518, IC del 95% = 0,349-0,687) (Tabla S2).

    Función biológica de genes asociados a SNP con las mayores diferencias de frecuencia de alelos en los análisis estándar y / o estratificados de todo el genoma (GWAS).

    Gráfico de Manhattan que muestra los resultados de todo el genoma [−log10 (P)] del estándar (a) y estratificado (B) análisis de asociación entre los períodos de tiempo 2002/06 y 2009/12.


    Discusión

    La predicción precisa de fenotipos a partir de genotipos es un problema de gran importancia para la biología que conlleva grandes desafíos para los algoritmos de aprendizaje. Las dificultades surgen cuando se aprende de datos genómicos de alta dimensión con tamaños de muestra diminutos en comparación con 23. Además, la capacidad de los expertos para comprender los modelos resultantes es primordial y no es posible con la mayoría de los algoritmos de última generación. Este estudio ha demostrado que los algoritmos de aprendizaje basados ​​en reglas CART y SCM pueden enfrentar estos desafíos y aprender con éxito modelos de genotipo a fenotipo altamente precisos e interpretables.

    En particular, se obtuvieron modelos precisos de genotipo a fenotipo para 107 fenotipos de resistencia a los antimicrobianos, que abarcan 12 especies eucariotas y 56 agentes antimicrobianos, lo cual es una escala sin precedentes para un análisis de aprendizaje automático de este problema 19. Se demostró que los modelos obtenidos son altamente interpretables y se basan en mecanismos de resistencia a fármacos confirmados, que fueron recuperados por los algoritmos sin ningún conocimiento previo del genoma. Además, los modelos destacan mecanismos no informados anteriormente, que quedan por investigar. Por lo tanto, los modelos aprendidos se proporcionan como Datos adicionales con la esperanza de que sembrarán nuevas investigaciones para comprender y diagnosticar los fenotipos de la RAM. También se incluye un tutorial que explica cómo visualizar y anotar los modelos.

    Además, un análisis teórico de los algoritmos CART y SCM, basado en la teoría de compresión de muestras, reveló fuertes garantías sobre la precisión de los modelos obtenidos. Dichas garantías son fundamentales si los modelos se van a aplicar en el diagnóstico o pronóstico 23. Hasta la fecha, estos algoritmos se encuentran entre los que realizan el mayor grado de compresión de muestras y, por lo tanto, actualmente brindan las garantías más sólidas (en términos de límites de riesgo de compresión de muestras) para aplicaciones a datos genómicos de alta dimensión. Además, se demostró que estas garantías se pueden utilizar para la selección de modelos, lo que lleva a tiempos de aprendizaje significativamente reducidos y modelos con mayor interpretabilidad. Esto sirve como un buen ejemplo de cómo la investigación teórica del aprendizaje automático se puede transferir a aplicaciones prácticas de gran importancia.

    Finalmente, es importante mencionar la generalidad del método propuesto, que no hace suposiciones sobre las especies y fenotipos en estudio, excepto que los fenotipos deben ser categóricos. Los mismos algoritmos podrían usarse para predecir fenotipos de células tumorales en función de su genotipo (p. Ej., Maligno frente a benigno, resistencia a fármacos) o para hacer predicciones basadas en datos metagenómicos. Para facilitar más aplicaciones biológicas de este trabajo, se proporciona con este trabajo una implementación de código abierto del método, que no requiere conocimientos previos de aprendizaje automático, junto con tutoriales completos (ver Métodos). La implementación está altamente optimizada y los algoritmos se entrenan sin cargar todos los datos genómicos en la memoria de la computadora.

    Se prevén varias ampliaciones de este trabajo. Los algoritmos y sus garantías de rendimiento podrían adaptarse a otros tipos de representaciones para variantes genómicas, como polimorfismos de nucleótido único (SNP) y unitigs 45. Las técnicas propuestas por Hardt et al. 46 podría utilizarse para garantizar que los modelos no estén sesgados hacia covariables indeseables, como la estructura de la población 47,48. Esto podría aumentar potencialmente la interpretabilidad de los modelos, al evitar la inclusión de reglas asociadas con sesgos en los datos. Además, sería interesante generalizar este trabajo a fenotipos continuos, como la predicción de concentraciones inhibitorias mínimas en AMR 20. Además, otra extensión sería la integración de múltiples tipos de datos ómicos para modelar fenotipos que resultan de variaciones en múltiples niveles moleculares 49. Además, este trabajo podría servir como base para métodos conjuntos eficientes para la predicción de genotipo a fenotipo, como los clasificadores de bosque aleatorios 50, que podrían mejorar la precisión de los modelos resultantes, pero complicarían la interpretación. Por último, pero no menos importante, los métodos basados ​​en reglas presentados aquí aseguran una buena generalización si se pueden encontrar clasificadores comprimidos de muestra dispersa con pequeños errores empíricos. No obstante, se sabe que también se puede lograr una buena generalización en espacios de muy alta dimensión con otras estrategias de aprendizaje, como lograr un gran margen de separación 51,52 en un gran subconjunto de ejemplos o mediante el uso de algoritmos de aprendizaje que sean algorítmicamente estables 53. Aunque sigue siendo un desafío obtener modelos interpretables con estos enfoques de aprendizaje, eventualmente podrían ser útiles para medir hasta qué punto los métodos basados ​​en reglas están perdiendo poder predictivo a expensas de la interpretabilidad.


    4. Enfoques y métodos analíticos para estudios de asociación multiómica

    Los estudios existentes en organismos humanos y modelos destacaron la complejidad del flujo de información genómica y las redes interactivas en los procesos biológicos y el desarrollo de enfermedades. El enfoque multi-ómico, por lo tanto, mantiene la promesa de seguir avanzando en la investigación de enfermedades humanas. Sin embargo, tal entusiasmo solo puede traducirse en descubrimientos científicos con diseños de estudio sólidos y estrategias analíticas sólidas.

    Los conjuntos de datos ideales para un análisis integrador de este tipo son datos multiómicos, todos recopilados en el mismo conjunto de muestras. Sin embargo, esto a menudo no es posible debido al costo o porque las muestras de control simplemente no tienen los tejidos apropiados para estudiar. Otro tipo de conjuntos de datos son los datos multi-ómicos recopilados en diferentes conjuntos de individuos de diferentes estudios. Se pueden responder diferentes preguntas de investigación para cada tipo de conjunto de datos multiómicos utilizando los enfoques estadísticos correspondientes.

    4.1 Modelado de juntas basado en regresión

    El enfoque basado en la regresión modela conjuntamente datos multiómicos, utilizando el marco del análisis de mediación. Por lo general, estos datos se recopilan sobre los mismos temas. A lo largo de esta sección, dejamos Y ser el resultado dicotómico de la enfermedad, GRAMO ser un SNP o un conjunto de SNP según el método específico, mi ser la expresión de ARNm de un gen o un conjunto de genes, y X ser todas las covariables no genómicas (como las mediciones clínicas o ambientales) con la primera covariable siendo 1. A continuación, revisamos cuatro métodos en esta categoría.

    Huang, Vanderweele y Lin (2014) desarrollaron un método que integra SNP y datos de expresión génica, tratando la expresión génica como mediador en el mecanismo causal desde los SNP hasta el resultado de la enfermedad (Figura 2). Utilizaron un modelo de regresión logística

    caracterizar la dependencia del resultado de la enfermedad en un conjunto de SNP GRAMO, la expresion mi de un gen y otras covariables X. Un par de expresión SNP se puede definir de dos formas. Primero, se pueden elegir los SNP asignados a un gen y la expresión del gen. En segundo lugar, se pueden elegir los SNP de eQTL y la expresión génica correspondiente basándose en un estudio de eQTL. La dependencia de la expresión génica del conjunto de SNP y otras covariables se formula mediante un modelo de regresión lineal.

    El objetivo es probar la hipótesis.

    Esta hipótesis nula se puede interpretar en el marco del análisis de mediación causal basado en el diagrama causal de la Figura 2. Definir el efecto total (TE) del conjunto de SNP sobre el resultado de la enfermedad como

    en el que ambas probabilidades están marginadas sobre mi. los TE de SNP se puede descomponer en el efecto directo (Delaware) y el efecto indirecto (ES DECIR). los Delaware es el efecto de los SNP sobre el resultado de la enfermedad que no es a través de la expresión génica, mientras que ES DECIR es el efecto de los SNP que está mediado por la expresión génica. Cuando los SNP están asociados con la expresión génica (es decir., SNP de eQTL & # x003b1GRAMO & # x02260 0), la hipótesis nula (3) es equivalente a la hipótesis nula de Delaware = 0 y ES DECIR = 0 (es decir., no TE de los SNP). Cuando los SNP no tienen ningún efecto sobre la expresión génica (es decir, no los SNP eQTL & # x003b1GRAMO = 0), entonces no hay ES DECIR de los SNP en Y, de modo que la hipótesis nula (3) no es equivalente a probar que no TE, sino simplemente si existe un efecto conjunto de los SNP, la expresión génica y posiblemente su efecto interactivo sobre el riesgo de enfermedad. Esta interpretación causal es útil para comprender la etiología genética de las enfermedades, así como para aplicaciones en la investigación farmacéutica (Y. Li, Tesson, Churchill, & # x00026 Jansen, 2010).

    La expresión genética es un mediador potencial de los efectos genéticos sobre el resultado de la enfermedad.

    Como el número de SNP en GRAMO pueden ser grandes y algunos SNP pueden estar altamente correlacionados entre sí debido al desequilibrio de ligamiento (LD), la prueba de razón de verosimilitud estándar (LRT) o la prueba de Wald multivariante para la hipótesis nula (3) usaría un gran número de grados de libertad y por lo tanto, tendría un poder limitado. Para superar este problema, Huang et al. (2014) propuso una prueba de componente de varianza. Supusieron que los componentes del vector & # x003b2GRAMO son independientes y siguen una distribución arbitraria con media 0 y varianza & # x003c4GRAMO, y que los componentes en & # x003b2GE son independientes y siguen una distribución arbitraria con media 0 y varianza GE. Por tanto, el modelo de enfermedad (1) se convierte en un modelo logístico de efectos mixtos, y la prueba de hipótesis (3) se convierte en una prueba conjunta de los componentes de la varianza y un coeficiente de regresión escalar:

    Por lo tanto, la prueba del componente de varianza propuesta es insensible al número de SNP en GRAMO. Como se desconoce el verdadero modelo de enfermedad y puede ser diferente de (1), por ejemplo, sin el término de interacción, Huang et al. (2014) propuso además una prueba ómnibus que se adapta a diferentes modelos de enfermedades posibles.

    Posteriormente, Huang (2015) amplió el trabajo de Huang et al. (2014) para analizar conjuntamente los datos de SNP, metilación del ADN y expresión génica con respecto al resultado de una enfermedad, agregando la capa de datos de metilación del ADN al marco existente. Además, el trabajo anterior solo se centró en probar el efecto general de un conjunto de SNP y la expresión de un gen, sin distinguir los mecanismos de Delaware de los SNP sobre la enfermedad y ES DECIR de los SNP mediados por la expresión. En el trabajo posterior, Huang (2015) estudió los efectos específicos de la ruta, como se muestra en el diagrama causal (Figura 3), modelando conjuntamente un conjunto de SNP dentro de un gen, la metilación y expresión del ADN del gen y el resultado de la enfermedad. como proceso biológico. Dejar METRO denotan la medición de la metilación del ADN en un sitio CpG. Luego, el modelo logístico en (1) se expande como

    La dependencia de la metilación del ADN del conjunto de SNP y otras covariables y la dependencia de la expresión génica de los SNP, la metilación del ADN y otras covariables se especifican en los modelos de regresión lineal.

    F E | M (0, & # x003c3 E | M 2) y FMETRO y Fmi|METRO son distribuciones arbitrarias.

    Tres efectos específicos de la ruta son 1) Efecto directo de los SNP sobre el resultado (línea roja discontinua), 2). Efecto indirecto de SNP mediado por la expresión génica pero no por metilación (líneas de puntos azules) y 3). Efecto indirecto de SNP mediado por metilación (líneas negras continuas).

    Se puede probar un conjunto arbitrario de coeficientes de regresión en el modelo (4). Por ejemplo,

    puede evaluarse mediante una prueba de componente de varianza como se propone en Huang et al. (2014). Para proporcionar una interpretación mecanicista de la hipótesis (7), Huang (2015) primero descompuso el efecto genético general en tres efectos específicos de la ruta: 1) el Delaware de los SNP en el resultado, no a través de la metilación del ADN o la expresión (denotado por & # x00394GRAMO& # x02192Y), 2) el ES DECIR de los SNP en el resultado que está mediado por la expresión génica pero no por la metilación del ADN (& # x00394GRAMO& # x02192mi& # x02192Y), y 3) otro ES DECIR de los SNP sobre el resultado mediado por la metilación del ADN (& # x00394GRAMO& # x02192MI). Dentro del marco de mediación causal, se puede establecer la correspondencia de un efecto específico de ruta y un conjunto de coeficientes de regresión en el modelo de enfermedad (4). Por ejemplo, el Delaware & # x00394GRAMO& # x02192Y corresponde a & # x003b2GRAMO, & # x003b2GM, & # x003b2GE, y & # x003b2GME, que no está influenciado por la relación entre G, M, y mi. Por el contrario, el ES DECIR & # x00394GRAMO& # x02192mi& # x02192Y de los SNP mediados a través de la expresión se ve afectado por la G-M-E relación. Evidentemente, si no existe un efecto de GRAMO sobre mi, & # x00394GRAMO& # x02192mi& # x02192Y es cero. Si existe un efecto de GRAMO sobre mi, & # x00394GRAMO& # x02192mi& # x02192Y corresponde a & # x003b2mi, & # x003b2ME, & # x003b2GE, y & # x003b2GME significa que la prueba de la hipótesis (7) es equivalente a la prueba de la ES DECIR de SNP mediados por la expresión génica. Para determinar la relación entre G, M, y mi, se puede confiar en el conocimiento previo de la evidencia biológica existente, o en análisis estadísticos que estimen la relación, o en criterios de selección del modelo como el criterio de información de Akaike (AIC) (Akaike, 1974) y el criterio de información bayesiano (BIC) (Schwarz, 1978).

    Para aplicar este método a los datos de todo el genoma, no está claro cómo seleccionar la medida de metilación del ADN para un gen. Es posible considerar cada uno de los sitios CpG que se mapean en el gen, incluidas las aguas arriba y aguas abajo del gen, pero esta estrategia resultará en demasiadas pruebas. La aplicación de datos de Huang (2015) no ilustra este punto. En cambio, la solicitud se refiere a 12 loci de metilación, una expresión de micro-ARN y una expresión génica, sustituyendo un conjunto de loci de metilación por el conjunto de SNP en la metodología y sustituyendo una expresión de micro-ARN por la metilación del ADN.

    Mientras que Huang et al. (2014) y Huang (2015) analizan conjuntamente datos multiómicos de la mismo sujetos, Huang (2014) amplió las metodologías para analizar los datos de diferente asignaturas. Esto está motivado por el hecho de que es probable que los estudios de GWAS y QTL se lleven a cabo en diferente sujetos debido a la disponibilidad de muestras de tejido y la especificidad tisular de expresión y metilación del ADN. Específicamente, en GWAS, se recopilan los SNP y los resultados de la enfermedad, pero no se recopilan la expresión / metilación génica en los estudios de QTL, los SNP, la expresión génica y la metilación, pero no el resultado de la enfermedad. Definir & # x003bcMETRO = E (METRO | X, G), & # x003bcmi = E (mi | X, G) y & # x003bcME = E (ME | X, G). De la expresión (5), tenemos & # x003bcMETRO = GRAMO T & # x003b4GRAMO + X T & # x003b4X. los & # x003bcmi y & # x003bcME puede obtenerse marginando (6) sobre METRO. Con diferentes datos ómicos sobre diferentes sujetos, el único efecto comprobable es el efecto general de SNP sobre el resultado de la enfermedad, no ninguno de los efectos específicos de la ruta. En el estadístico de la prueba del componente de varianza correspondiente desarrollado en Huang (2015), el ME y Términos ME debe ser reemplazado por el estimado & # x003bcMETRO, & # x003bcmi y & # x003bcME, respectivamente. Por lo tanto, el procedimiento de prueba en Huang (2015) se puede aplicar en entornos donde los datos de metilación y / o expresión no se recopilan en los sujetos de GWAS, pero sus asociaciones con SNP (es decir, & # x003bcMETRO, & # x003bcmi y & # x003bcME) se pueden estimar de forma coherente a partir de estudios externos de meQTL y eQTL. Tenga en cuenta que los estudios meQTL y eQTL deben realizarse en los mismos sujetos para calcular & # x003bcME.

    Zhao y col. (2014) consideraron los mismos conjuntos de datos ómicos que Huang et al. (2014) han tratado, es decir, SNP, expresión génica y datos de enfermedades recopilados en el mismo conjunto de sujetos. Sin embargo, Zhao et al. (2014) se centró en probar el ES DECIR de los SNP sobre el resultado de la enfermedad que está regulado por la expresión génica. Propusieron el siguiente modelo de dos etapas para cada SNP GRAMO,

    dónde mi puede incluir la expresión de un conjunto de genes. El modelo (9) es significativamente diferente del modelo (2) en que el primero no considera la regulación del SNP en la expresión de un gen individual, pero en una combinación lineal particular de ellos, por lo tanto, requiere estimar menos parámetros. Tenga en cuenta que esta es la misma combinación lineal de expresión génica en el modelo de enfermedad (8). Basado en el modelo de dos etapas, se puede probar la asociación SNP-enfermedad mediante la prueba H0: & # x003b1GRAMO = 0, asumiendo que el SNP afecta el riesgo de enfermedad al afectar los niveles de expresión génica. Este trabajo es análogo al trabajo de Huang et al. (2014), pero se centra únicamente en aumentar el poder de las pruebas de asociación de SNP, en lugar de asignar interpretaciones causales a cualquiera de los parámetros. Cuando un conjunto particular de genes o una vía es de interés tal que el número de genes en mi no supera el número de sujetos, Zhao et al. (2014) propuso utilizar la teoría de ecuaciones de estimación estándar para la inferencia. Para aplicar su método de una manera agnóstica y de todo el genoma, propusieron considerar un gen en mi a la vez para reducir la carga de pruebas múltiples impuesta por la gran cantidad de pruebas por pares que propusieron restringir para probar solo aquellos SNP ubicados cis a cada gen. Este método funciona mejor cuando no hay Delaware de los SNP sobre el resultado de la enfermedad, de modo que los SNP actúan solo a través de la regulación de la expresión génica. En este caso, la expresión génica puede ayudar a explicar la variabilidad del efecto de SNP sobre la enfermedad y, por lo tanto, aumenta el poder de detección del efecto general de los SNP sobre la enfermedad. De hecho, Kenny y Judd (2014) señalaron que en ausencia de una Delaware, probando el ES DECIR en un análisis de mediación puede ser mucho más poderoso que el método estándar que prueba directamente las asociaciones SNP-enfermedad. Incluso en presencia de un Delaware de modo que el modelo (8) especifica erróneamente el verdadero riesgo de enfermedad, Zhao et al. (2014) demostraron, tanto analítica como numéricamente, que su método es aún más poderoso que el método estándar cuando la magnitud de Delaware es menor que la magnitud de ES DECIR.

    4.2 Patrones coincidentes de eQTL y GWAS

    He et al. (2013) desarrollaron un método para detectar genes asociados a enfermedades (es decir, genes cuyo nivel de expresión influye en el riesgo de enfermedad) haciendo coincidir los patrones de eQTL de cada gen con los patrones de SNP asociados a enfermedades. Este método es especialmente útil cuando se realizaron estudios de eQTL y GWAS en diferentes muestras. La razón es que, para un gen asociado a una enfermedad, es probable que cualquier variación genética que perturbe su expresión también influya en el riesgo de enfermedad (Figura 4). Por tanto, los eQTL del gen, que constituyen una & # x0201c firma genética & # x0201d única de este gen, deberían superponerse significativamente con el conjunto de loci asociados con la enfermedad. Debido a que muchos eQTL actúan en trans, este enfoque puede identificar genes importantes que son distales a cualquier señal de asociación GWAS y, por lo tanto, imposibles de detectar con GWAS solo.

    UI: variables indicadoras binarias para representar la verdadera relación causal de la expresión del gen SNP, VI: variables indicadoras binarias de la verdadera relación SNP-enfermedad. Z es una variable binaria que indica si el rasgo de expresión génica influye en la enfermedad.

    He et al. (2013) implementó la idea anterior de coincidencia de firmas genéticas mediante un marco bayesiano. Supongamos que, dado un gen, hay metro eQTL putativos que superan algún umbral de significación bajo y menos estricto en el estudio de eQTL. Dejar Uj y Vj ser indicadores binarios para representar si el IEl SNP está asociado con la expresión y el resultado de la enfermedad, respectivamente. Dejar Z ser un indicador binario que represente si la expresión del gen está asociada con la enfermedad. Si, para un número significativo de SNP, Uj = 1 y Vj = 1, entonces es probable que Z = 1. Los datos disponibles consisten en pag-valores de SNP en relación con la expresión génica de un estudio eQTL, denotado por el vector pageQTL, y el pag-valores de los SNP en relación con el resultado de la enfermedad de un GWAS, denotado por el vector pagGWAS. A pesar de que Uj y Vj no se observan, se relacionan con pageQTL,j y pagGWAS,j: cuando pageQTL,j (pagGWAS,j) es pequeño, es probable que Uj (Vj) = 1. Por lo tanto, los datos pageQTL y pagGWAS se puede utilizar para probar la hipótesis H0: Z = 0 que el gen no está asociado con la enfermedad. La inferencia de Z se basa en el factor de Bayes (BF):

    que es la razón de las probabilidades de datos bajo H1 y H0. Cuando todos los SNP están desvinculados, el BF del gen es el producto de la BFs de todos los SNP:

    Cuando hay LD entre los SNP, He et al. (2013) propuso utilizar un nivel de bloque BF, que es la media del BFs de todos los SNP en ese bloque (Servin y Stephens, 2007). La probabilidad PAG(pageQTL,j, pagGWAS, j | Z) se calcula sumando las variables ocultas Uj y Vj:

    Los componentes del lado derecho se especifican de la siguiente manera. Uj es una variable de Bernoulli con la probabilidad de éxito & # x003b1, que es la probabilidad previa de que un SNP esté asociado con la expresión génica. He et al. (2013) eligió & # x003b1 = 1.0 & # x000d7 10 & # x022123 para cis-eQTL (dentro de 1 Mb del gen) y & # x003b1 = 5.0 & # x000d7 10 & # x022125 para trans-eQTLs. Cuando Z = 0, el gen es irrelevante para la enfermedad y, por lo tanto, Uj y Vj son independientes. Cuando Z = 1 y Uj = 0, este SNP no es un eQTL y por lo tanto Uj y Vj también son independientes. En ambos casos, Vj es una variable de Bernoulli con la probabilidad de éxito & # x003b2, que es la probabilidad previa de que un SNP se asocie a la enfermedad. He et al. (2013) elegido & # x003b2 = 1.0 & # x000d7 10 & # x022123. Cuando Z = 1 y Uj = 1, Vj siempre debe ser 1, ya que se espera que un verdadero eQTL del gen esté asociado con la enfermedad. Las probabilidades PAG(pageQTL,j | Uj) y PAG(pagGWAS,j | Vj) reflejan las distribuciones de pag-valores bajo la hipótesis nula o alternativa. Dejar TeQTL,j y TGWAS,j ser las estadísticas de prueba correspondientes a pageQTL,j y pagGWAS,j, respectivamente. Bajo el nulo, PAG(TeQTL,j | Uj = 0) y PAG(TGWAS,j | Vj = 0) siguen la distribución normal estándar. Bajo la alternativa, PAG(TeQTL,j | Uj = 1) y PAG(TGWAS,j | Vj = 1) dependen de las pruebas a través de las cuales se derivan las estadísticas de prueba y el tamaño del efecto del SNP. Finalmente, el BF de El jth SNP, Bj, se puede expresar como

    están BFs midiendo la asociación de la j th SNP con la expresión y la enfermedad, respectivamente. Por lo tanto, la BF del gen que se está probando depende solo de & # x003b1, & # x003b2y a nivel de SNP BFs. (Si la inferencia bayesiana se ha realizado tanto en el análisis de eQTL como en el de GWAS, es sencillo combinar el resultado BFs para obtener el BF para el gen.) Para evaluar la significancia estadística de BF, se propuso un enfoque de simulación para calcular la pag-valor del BF para un gen.

    Debido a que este método no prueba directamente las relaciones entre los genotipos, la expresión génica y los resultados de la enfermedad, solo requiere pag-valores, los datos de eQTL y GWAS no tienen que provenir de los mismos sujetos. Este método también se puede generalizar a rasgos moleculares distintos de la expresión génica, como metabolitos, ARN no codificantes y modificaciones epigenéticas. Se ha implementado en un programa de software llamado Sherlock. El nombre implica que el método funciona como un detective, comparando la huella dactilar de la escena del crimen (la firma GWAS) con una base de datos de huellas dactilares (la firma eQTL de todos los genes) para determinar el verdadero culpable (genes asociados a enfermedades).

    4.3 Agregando evidencia de datos multiómicos sobre el conjunto / vía de genes

    Xiong y col. (2012) desarrollaron un marco estadístico, llamado Gene Set Association Analysis (GSAA), que agrega evidencia genética y de expresión génica en términos de & # x0201 puntuaciones de asociación & # x0201d a nivel de conjuntos de genes o vías para el análisis de asociación de conjuntos de genes en todo el genoma. o caminos. Los datos de expresión génica y los datos del genotipo SNP pueden recopilarse en las mismas muestras o en muestras diferentes. El cuadro punteado de la Figura 5 ilustra el procedimiento de agregación de tres pasos de GSAA sin tener en cuenta los sitios de metilación del ADN, las proteínas y los metabolitos.

    Una prueba ómnibus de vías enriquecidas para SNP asociados a rasgos, expresiones génicas, sitios CpG, proteínas y características metabolómicas. Este enfoque de múltiples capas permite la agregación de señales de asociación única desde marcadores individuales hasta genes y vías. El modelo de agregación original se limitaba a los SNP y los niveles de expresión génica dentro del cuadro discontinuo.

    En primer lugar, se calculan respectivamente la puntuación de asociación del conjunto de SNP y la puntuación de asociación de expresión génica. La puntuación de asociación de expresión génica que refleja el grado en que un gen se expresa diferencialmente entre casos y controles se calcula como la diferencia de las medias de grupo escaladas por la desviación estándar. La puntuación de asociación del conjunto de SNP es el máximo de la puntuación de un solo SNP sobre todos los SNP mapeados en la región del gen, donde la puntuación de un solo SNP se calcula como la puntuación basada en el genotipo o alelo. & # x003c7 2 y la región del gen es un intervalo genómico predefinido que abarca el gen y el flujo arriba y abajo de la región transcrita.

    En segundo lugar, la puntuación de asociación del conjunto de SNP y la puntuación de asociación de expresión génica se combinan para generar una puntuación de asociación de genes. Este paso integra evidencia de asociación entre la expresión génica y los datos de SNP. Antes de la integración de la expresión y los datos de SNP, se toman los valores absolutos de las puntuaciones de expresión génica para capturar tanto la regulación positiva como la regulación negativa en las vías y ser coherentes con la magnitud de las puntuaciones de asociación del conjunto de SNP. Tanto la puntuación de expresión génica como la puntuación del conjunto de SNP también están estandarizadas por la media y la desviación estándar de sus respectivas distribuciones nulas, que se generan mediante un procedimiento de permutación basado en el fenotipo, de modo que las puntuaciones de diferentes pruebas estadísticas o en diferentes escalas se traen en una escala común y, por tanto, directamente comparables entre sí. La puntuación de asociación de genes es la suma de las dos puntuaciones estandarizadas.

    En tercer lugar, el conjunto de genes se evalúa mediante una estadística ponderada de Kolmogorov-Smirnov (KS) (es decir, puntuación de asociación del conjunto de genes) para determinar si los genes que pertenecen a este conjunto de genes están preferentemente cerca de la parte superior de la lista ordenada clasificada según las puntuaciones de asociación de genes. . Sobre la base de un procedimiento de permutación basado en el fenotipo que conserva la estructura de LD en los datos de SNP y la estructura de correlación gen-gen en los datos de expresión génica, se puede calcular la tasa de descubrimiento falso (FDR) o la tasa de error familiar (FWER) y el gen significativo los conjuntos se declaran controlando FDR o FWER por debajo de un cierto umbral.

    Aunque Xiong et al. (2012) solo se centró en la integración de la expresión génica y los datos del genotipo SNP, la flexibilidad de este marco permite la integración de otros datos ómicos como los datos de metilación del ADN, proteómica y metabolómica (Figura 5). De forma análoga a la puntuación de asociación de conjuntos de SNP, primero podemos calcular la & # x003c7 2 en sitios CpG individuales basados ​​en los valores beta (midiendo el nivel de metilación del ADN) y luego obtenga una puntuación de asociación del conjunto de CpG para el gen utilizando una estadística máxima. También podemos calcular el & # x003c7 2 estadística en cada proteína. Estas estadísticas se agregan en la puntuación de asociación de genes después de la estandarización adecuada, junto con las de los conjuntos de SNP y la expresión de genes. Finalmente, realizamos una prueba K-S ponderada para metabolitos dentro de cada vía para obtener una puntuación de asociación de conjunto de metabolitos. Las puntuaciones de asociación de vías son las sumas de las puntuaciones de asociación de conjuntos de genes y metabolitos.


    Métodos

    Muestras

    Los trece individuos analizados en este estudio son miembros de la Asociación Cultural Bubi de Fuenlabrada, Madrid (España). Obtuvimos el consentimiento informado de todos los sujetos. Descartamos a 25 de los individuos entrevistados debido a su ascendencia mixta, muchos de ellos tenían un ancestro Fang reciente del continente. Si bien la mayoría de los individuos no nacieron en Bioko, verificamos que los individuos seleccionados tenían todos los abuelos nacidos en la isla muchos de los antepasados ​​directos de los voluntarios provienen de Malabo, Bariobé y Baney, que se encuentran en la región noreste de Bioko ( Archivo adicional 1: Tabla S1).

    Extracción, secuenciación y mapeo

    Aislamos el ADN de hisopos de algodón utilizando todo el material disponible y un método de extracción de ADN de base orgánica adaptado a las columnas Amicon® Ultra de 0,5 ml [45]. Después de la extracción, concentramos el ADN por centrifugación hasta 50 μL y sometimos las muestras a un control de calidad. Para asegurar que había una concentración de ADN adecuada, se cargó 1 μL de muestra en un gel de agarosa al 1% y se tiñó con bromuro de etidio. Solo se observó una banda. Las muestras se cuantificaron con Epoch de BioTek y arrojaron valores, en promedio, de 68,88 ng / μL.

    Las bibliotecas de ADN genómico se prepararon utilizando el kit de preparación de bibliotecas sin PCR de ADN TruSeq (de acuerdo con la configuración general de la guía de preparación). El procedimiento produjo una biblioteca sin PCR con un tamaño de inserto promedio de 350 pb que requiere 20 ng / ul (en muestras de 50 ul). Las muestras de ADN se fragmentaron aleatoriamente mediante el sistema Covaris y se secuenciaron en HiSeqX10 (Illumina) con configuraciones hiseq2x150bp más adaptadores de extremo emparejado de 65 bp en Macrogen (Corea del Sur).

    Evaluamos las lecturas secuenciadas de pares con FASTQc para comprobar su calidad. Los adaptadores de secuenciación se eliminaron mediante la eliminación del adaptador [46], las lecturas de menos de 30 pb se eliminaron y las lecturas se mapearon contra el genoma de referencia humano [Centro Nacional de Información Biotecnológica (NCBI) 37, hg19] utilizando Burrows-Wheeler Aligner ( BWA) con parámetros predeterminados [47]. Las lecturas duplicadas se eliminaron utilizando Picard Tools MarkDuplicates versión 2.8.3 y las lecturas de mapeo de baja calidad (& lt 30) se eliminaron con SAMtools versión 1.623 [48].

    Pruebas de genotipado y control de calidad

    Las lecturas alineadas únicas se procesaron con la recalibración del puntaje de calidad base (BQSR) implementada en el software GATK versión 3.7 [49]. Incluso si los gráficos no mostraban señales de errores sistemáticos, aplicamos la recalibración a todas las lecturas filtradas. Usamos GATK HaplotypeCaller en modo GVCF para llamadas de variantes escalables (usando GRCh37 como secuencia de referencia). Las llamadas de variantes individuales se fusionaron en un solo archivo VCF utilizando la herramienta GATK genotypeGVCFs, y las variantes se filtraron utilizando Variant Quality Score Recalibration (VQSR) con un nivel de filtro del 99%. Usamos anotaciones QD, MQ ReadPosRankSum, FS y SOR en este paso. Excluimos cualquier variante con menos del 70% de la cobertura de profundidad principal o más del 200%. También eliminamos aquellas variantes que exhiben cualidades por debajo de 30. Eliminamos las llamadas variantes con una frecuencia de alelos mínima por debajo de 0.05 y un desequilibrio de Hardy-Weinberg. pag-valor por debajo de 1e-6.

    Conjunto de datos de genética de poblaciones

    Fusionamos nuestras variantes filtradas con 690,739 SNP de 1235 individuos genotipados pertenecientes a 35 poblaciones de África Occidental. Este conjunto de datos incluye: poblaciones de habla bantú, cazadores-recolectores y grupos de África occidental [13], utilizando Plink 1.9 [50] (Archivo adicional 1: Tabla S2). Se excluyeron los sitios trialélicos, las mutaciones A / T y C / G y todos los sitios con una frecuencia de alelos menores (MAF) por debajo de 0,05. Posteriormente, eliminamos las posiciones con & gt 10% de datos faltantes y aquellas personas con & gt 5% de valores perdidos. Para asegurarse de que los genotipos se llamaran correctamente después de fusionar el conjunto de datos, los genotipos Yoruba SNP se compararon con la población de 1000 genomas Yoruba. Sin embargo, los análisis posteriores se realizaron sólo con los genotipos Yoruba del conjunto de datos de África occidental [51]. Posiciones que exhibieron valores & gt 0.2 de F por paresS t entre ambas muestras también se eliminaron. Basándonos en la historia colonial de Bioko, hemos evaluado la presencia de una posible mezcla genética de Bubi con individuos españoles, agregando muestras ibéricas de 1000 Genomas [52] al conjunto de datos del SNP. Después de este procedimiento, nuevamente eliminamos posiciones con MAF por debajo de 0.05, datos faltantes por encima de 0.1 y desequilibrio de Hardy-Weinberg pag-valores por debajo de 1e-10.

    Para la mayoría de los análisis, hemos extraído un subconjunto de datos con poblaciones representativas de África occidental y central. Este conjunto de datos reducido incluye 14 poblaciones y 169 personas (Archivo adicional 1: Tabla S3). Algunos de los análisis de genómica de poblaciones requieren un grupo externo no relacionado con las poblaciones probadas. Hemos fusionado nuestros genotipos con datos de once individuos San [53] de la matriz Human Origins [54], seguidos con el mismo procedimiento de fusión detallado anteriormente. El conjunto de datos africano resultante, incluido el Bub, comprende 130.647 SNP presentes en 1.259 individuos.

    Análisis de ADN mitocondrial (mt) y cromosoma Y

    Las lecturas se asignaron frente a la secuencia de referencia de Cambridge revisada (rCRS) del ADNmt humano [55]. Después de llamar a variantes con GATK versión 3.7 [49] como se ha descrito anteriormente, los haplogrupos de ADNmt se predijeron utilizando Haplogrep versión 2 [56]. Los haplogrupos del cromosoma Y se predijeron clasificando las mutaciones observadas de acuerdo con la base de datos PhyloTree [57].

    Análisis genómicos de poblaciones

    Para situar el Bubi dentro de la diversidad actual del Golfo de Guinea y África Occidental, se generó un análisis de componentes principales (PCA) con el conjunto de datos reducido utilizando el software EIGENSOFT [58]. Los resultados se trazaron utilizando el paquete R ggplot2 [59, 60].

    Se generaron gráficos ADMIXTURE para estimar las proporciones de componentes ancestrales K en cada genoma individual [61] del conjunto de datos reducido. Como el análisis asume un desequilibrio de ligamiento (LD), podamos el conjunto de datos. Usamos Plink 1.9 para eliminar SNP con un LD & gt r 2 = 0.5 en ventanas de 50 SNP. Los análisis de ADMIXTURE se realizaron con K de 2 a 15 y se repitieron cinco veces. Las iteraciones de ADMIXTURE se consolidaron utilizando CLUMPP con el algoritmo codicioso K grande [62] y los resultados se trazaron utilizando el paquete R ayudante [63].

    Grupo externo f3 La estadística es una prueba útil para determinar la población más cercana a un objetivo utilizando una población externa y midiendo la cantidad de deriva genética compartida con una población de prueba. Los san fueron seleccionados como grupo externo, ya que representan la población africana más distante con datos de todo el genoma, la población de Bubi se comparó con todas las demás poblaciones en el conjunto de datos. La F3 (San Bubi, Prueba) se calculó la estadística con popstats [64] y los resultados se trazaron nuevamente usando R. F Las estadísticas también se pueden implementar para determinar qué poblaciones exhibieron la mayor deriva genética con el pueblo Bubi, para hacerlo, usamos el software popstats para calcular la f4 estadísticaPrueba, San Bubi, Mbuti), (Prueba, San Bubi, Baka), (Prueba, San Bubi, Yoruba), (Prueba, San Bubi, Colmillo). Estas combinaciones nos permiten diseccionar la mezcla genética de las poblaciones probadas con Bubi en relación con todas las fuentes representativas de ascendencia genética en África occidental: RHG oriental, RHG occidental, poblaciones de África occidental y poblaciones de habla bantú.

    El índice de fijación (FS t) es una medida de diferenciación poblacional. Calculamos la media por pares FS t valores entre todas las poblaciones presentes en el conjunto de datos global. Todos los SNP autosómicos se incluyeron en este análisis utilizando el enfoque de Cockerham y Weir integrado en Plink 1.9 [65]

    El conjunto de datos reducido se escalonó con SHAPEIT2 [66], utilizando 500 estados, 50 pasos principales de MCMC, 10 mapas de recombinación de quemado y 10 pasos de poda se interpolaron a partir de los mapas genéticos de fase 2 de HapMap. Después de excluir todas las posiciones con al menos un sitio faltante, terminamos con un conjunto de datos de 491,203 posiciones variables sin datos faltantes.

    Usamos CHROMOPAINTER para construir una matriz de coancestría basada en datos de haplotipos del conjunto de datos de reducción gradual. Este software estima las proporciones de mezcla en los cromosomas receptores pintando la proporción de cada componente genético de las poblaciones de donantes. Ejecutamos CHROMOPAINTER con datos vinculados, estimando los parámetros ny M a través de una serie de observación sin parámetros prefijados e incluyendo 30 muestras seleccionadas al azar y tres cromosomas seleccionados al azar Se realizó un análisis de ESTRUCTURA fina con los recuentos obtenidos en CHROMOPAINTER y corrió con 1000,000 Monte de cadena de Markov Las iteraciones y la salida de Carlo (MCMC) se imprimieron cada 10.000 iteraciones. El mejor árbol se calculó con 10,000 intentos estatales. También generamos un PCA basado en haplotipos con fineSTRUCTURE.

    Para identificar cualquier evento de mezcla entre los ancestros Bubi y otras poblaciones durante los últimos 4500 años, utilizamos el software GLOBETROTTER [41] sobre la base de los grupos definidos de fineSTRUCTURE (archivo adicional 1: Tabla S4).

    Análisis de identidad por descendencia (EII)

    Los bloques de identidad por descendencia (EII) se definen como fragmentos cromosómicos idénticos presentes en múltiples individuos que han sido heredados del mismo cromosoma ancestral [67]. Hemos utilizado el software RefinedIBD [68] configurando “ibdcm” = 0.5, “ibdtrim” = 62, “ibdwindow” = 2478 y “solapamiento” = 413, el resto de los parámetros fueron asignados por defecto. Todos los bloques de EII de más de cinco centimorgans (cM) se mantuvieron y el umbral estadístico marcado por LOD (el logaritmo de base 10 de la razón de verosimilitud de los segmentos de EII, que es una cifra que dependerá del tamaño de la base de datos y la diversidad genética dentro de él) fue asignado por defecto (& gt 3). El número de SNP utilizados aquí fue 685,382. Luego filtramos los segmentos de EII para mantener solo aquellos que fueron compartidos por cualquier Bubi y otro individuo del conjunto de datos (incluidos los fragmentos de EII compartidos por dos individuos de Bubi). Para reducir el impacto que el tamaño de la población podría tener en los recuentos globales de bloques de EII por población, corregimos el valor de los fragmentos de EII compartidos (IBDn) por el tamaño de la población (t). Para obtener el promedio de los bloques de EII compartidos por cualquier Bubi con cualquier otro individuo o población, dividimos cada número obtenido en el paso anterior por el número de individuos Bubi, 13: ratioBubi_pop = (IBDn / t) / 13.

    Análisis de ejecuciones de homocigosidad (ROH)

    Los ROH (& gt 1000 kb) se estimaron con el software Plink. Primero, calculamos el promedio (en kilobases) del genoma que está en homocigosis para cada población. En segundo lugar, calculamos el promedio del número de fragmentos genómicos que se encuentran en homocigosis para cada población.

    Resistencia a la malaria

    Las mutaciones relevantes asociadas con la resistencia a la malaria en 10 genes diferentes (archivo adicional 1: Tabla S11), como se encuentran en los estudios de asociación de todo el genoma (GWAS) y otros estudios previos [31, 69], fueron genotipados en Bubi y las 1000 poblaciones africanas de genomas. . Se utilizó la prueba exacta de Fisher para determinar la significación estadística de las diferencias observadas (pag & lt 0,001).

    Evaluación de los efectos del tamaño de muestra limitado

    Hemos utilizado un genoma completo FS t enfoque para evaluar los efectos del pequeño tamaño de muestra utilizado en este trabajo. Hemos agrupado aleatoriamente los 186 individuos Yoruba de 1000 genomas en 14 submuestras de 13-17 individuos y hemos estimado la media por pares FS t valores entre todas las combinaciones de población. Todos los SNP autosómicos se incluyeron en este análisis utilizando el enfoque de Cockerham y Weir integrado en Plink 1.9 [65]. Ninguna comparación ha mostrado valores de media por pares FS t superior a 0,1, lo que indica que las submuestras no muestran diferencias significativas en términos de diversidad genética (Archivo adicional 2: Figura S12). Este resultado sugiere que el tamaño limitado de la muestra de Bubi se puede utilizar para inferir la diversidad genética a un nivel de población más alto.


    Introducción

    La enfermedad cardiovascular (ECV), que en última instancia daña el músculo cardíaco, es una de las principales causas de muerte en todo el mundo (OMS, 2018). La ECV abarca una variedad de patologías que incluyen el infarto de miocardio (IM), donde la isquemia o la falta de suministro de oxígeno a los cardiomiocitos que demandan energía da como resultado estrés celular, daño irreparable y muerte celular. Los estudios de asociación de todo el genoma (GWAS) han identificado cientos de loci asociados con enfermedad de las arterias coronarias (Nikpay et al., 2015), IM e insuficiencia cardíaca (Shah et al., 2020), lo que indica la posible contribución de variantes genéticas específicas a riesgo de enfermedad. La mayoría de los loci asociados a enfermedades no se localizan dentro de las regiones codificantes del genoma, lo que a menudo hace que la inferencia sobre los mecanismos moleculares de la enfermedad sea un desafío. Dicho esto, debido a que la mayoría de los loci GWAS se encuentran dentro de regiones no codificantes, se cree que estas variantes tienen un papel en la regulación de la expresión génica. Uno de los principales objetivos del proyecto Genotype-Tissue Expression (GTEx) ha sido cerrar la brecha entre el genotipo y los fenotipos a nivel de organismo mediante la identificación de asociaciones entre variantes genéticas y fenotipos de nivel molecular intermedio, como los niveles de expresión génica (GTEx Consortium et al., 2017). El proyecto GTEx ha identificado decenas de miles de loci de rasgos cuantitativos de expresión (eQTL), es decir, variantes que están asociadas con cambios en los niveles de expresión génica, en docenas de tejidos, incluidas muestras ventriculares y auriculares del corazón. Sin embargo, los eQTL informados por GTEx explican una proporción modesta de loci GWAS y, si bien el aumento de la diversidad de tejidos y tamaños de muestra permitirá una mayor comprensión, también se deben considerar los enfoques ortogonales.

    Se está volviendo cada vez más evidente que muchas variantes genéticas que no están asociadas con los niveles de expresión génica en estado estacionario, pueden afectar los programas dinámicos de expresión génica en contextos específicos. Esto incluye etapas de desarrollo específicas (Cuomo et al., 2020 Strober et al., 2019), o exposición específica a un estímulo ambiental como el estrés del retículo endoplásmico (Dombroski et al., 2010), tratamiento hormonal (Maranville et al., 2011). ), muerte celular inducida por radiación (Smirnov et al., 2012), exposición a vitamina D (Kariuki et al., 2016), cardiotoxicidad inducida por fármacos (Knowles et al., 2018) y respuesta a la infección (Alasoo et al. , 2018 Barreiro et al., 2012 Çalışkan et al., 2015 Kim-Hellmuth et al., 2017 Manry et al., 2017 Nédélec et al., 2016). Los estudios de eQTL dinámicos específicos del contexto destacan la necesidad de determinar los efectos de las variantes genéticas en el entorno relevante. Por lo tanto, si queremos comprender completamente los efectos de la variación genética sobre la enfermedad, debemos analizar los tipos de células relevantes para la enfermedad y las perturbaciones relevantes para la enfermedad.La mayoría de los estudios mencionados anteriormente se realizaron en sangre total o células inmunes, lo que significa que hay muchos tipos de células y estados relevantes para enfermedades que aún no se han explorado.

    Con los avances en la tecnología de células madre pluripotentes, ahora podemos generar tipos de células humanas en gran parte inaccesibles mediante la diferenciación dirigida de células madre pluripotentes inducidas (iPSC) reprogramadas a partir de tejidos fácilmente accesibles como fibroblastos o células B. Una de las ventajas de los tipos de células derivadas de iPSC como sistema modelo es que se puede controlar el entorno y, por lo tanto, podemos probar específicamente los efectos genéticos sobre los fenotipos moleculares en respuesta a la perturbación controlada. Esto es particularmente útil para estudios de enfermedades complejas como las ECV, que resultan de una combinación de factores genéticos y ambientales.

    El corazón es un tejido complejo que consta de múltiples tipos de células, sin embargo, la mayor parte del volumen del corazón está compuesto por cardiomiocitos (Donovan et al., 2019 Pinto et al., 2016), que son particularmente susceptibles a la privación de oxígeno dada su alta actividad metabólica. Se ha demostrado que los cardiomiocitos derivados de iPSC (iPSC-CM) son un modelo útil para estudiar los efectos genéticos sobre diversos rasgos y enfermedades cardiovasculares, así como para estudiar la regulación génica (Banovich et al., 2018 Benaglio et al., 2019 Brodehl et al. ., 2019 Burridge et al., 2016 de la Roche et al., 2019 Ma et al., 2018 McDermott-Roe et al., 2019 Panopoulos et al., 2017 Pavlovic et al., 2018 Ward y Gilad, 2019).

    En los seres humanos, la enfermedad de las arterias coronarias puede conducir a un infarto de miocardio (Dzau et al., 2006) que da como resultado isquemia y falta de suministro de oxígeno a los cardiomiocitos que demandan energía. Dada la incapacidad de los cardiomiocitos para regenerarse, este estrés celular finalmente conduce al daño tisular. Los avances en el tratamiento del infarto de miocardio, como la cirugía para restaurar el flujo sanguíneo y el oxígeno a las arterias ocluidas, han mejorado los resultados clínicos. Sin embargo, un rápido aumento de los niveles de oxígeno después de un IM puede generar especies reactivas de oxígeno que conducen a una lesión por isquemia-reperfusión (I / R) (Giordano, 2005). Por tanto, tanto las lesiones por IM como las I / R pueden influir en última instancia en la cantidad de daño en el corazón. Las iPSC-CM nos permiten imitar el proceso de lesión I / R in vitro manipulando los niveles de oxígeno a los que están expuestos los cardiomiocitos in vivo.

    Por lo tanto, diseñamos un estudio destinado a desarrollar una comprensión de los determinantes genéticos de la respuesta a un estrés celular universal, la privación de oxígeno, en un tipo de célula relevante para la enfermedad, imitando un proceso relevante para la enfermedad. Para ello, establecimos un modelo in vitro de privación de oxígeno (hipoxia) y reoxigenación en un panel de iPSC-CM de 15 individuos genotipados (Banovich et al., 2018). Recopilamos datos para tres fenotipos de nivel molecular: expresión génica, accesibilidad a la cromatina y metilación del ADN para comprender las respuestas tanto genéticas como reguladoras a este estrés celular. Este marco nos permitió identificar eQTL que no son evidentes en estado estable y evaluar su asociación con enfermedades y rasgos complejos.


    Abstracto

    Fondo

    El consumo regular de pescado y omega-3 puede tener varios beneficios para la salud y están recomendados por las principales pautas dietéticas. Sin embargo, su ingesta sigue siendo notablemente variable tanto dentro como entre poblaciones, lo que podría deberse en parte a influencias genéticas.

    Objetivo

    Identificar variantes genéticas comunes que influyen en el consumo de pescado y ácido eicosapentaenoico dietético más ácido docosahexaenoico (EPA + DHA).

    Diseño

    Realizamos un metanálisis de asociación de genoma completo (GWA) de peces (norte = 86,467) y EPA + DHA (norte = 62,265) consumo en 17 cohortes de ascendencia europea del Grupo de Trabajo de Nutrición del Consorcio CHARGE (Cohortes para la Investigación del Corazón y el Envejecimiento en Epidemiología Genómica). Los resultados de los análisis de GWA específicos de cohortes (modelo aditivo) para el pescado y el consumo de EPA + DHA se ajustaron por edad, sexo, ingesta energética y estratificación de la población, y se metanalizaron por separado mediante un metanálisis de efectos fijos con pesos de varianza inversa (METAL software). Además, se estimó la heredabilidad en 2 cohortes.

    Resultados

    Las estimaciones de heredabilidad para el pescado y el consumo de EPA + DHA variaron de 0,13 a 0,24 y de 0,12 a 0,22, respectivamente. Se observó un GWA significativo para la ingesta de pescado para rs9502823 en el cromosoma 6: cada copia del alelo menor (Freq.A = 0.015) se asoció con 0.029 porciones / día (

    1 ración / mes) menor consumo de pescado (P = 1,96x10 -8). No se observó una asociación significativa para EPA + DHA, aunque rs7206790 en el gen FTO asociado a la obesidad fue uno de los principales éxitos (PAG = 8,18x10 -7). Los cálculos post-hoc demostraron un poder estadístico del 95% para detectar una variante genética asociada con un tamaño de efecto de 0.05% para peces y 0.08% para EPA + DHA.

    Conclusiones

    Estos nuevos hallazgos sugieren que los factores personales y ambientales no genéticos son los principales determinantes de la notable variación en el consumo de pescado, y representan objetivos modificables para aumentar la ingesta entre todos los individuos. Los genes que subyacen a la señal en rs72838923 y los mecanismos para la asociación justifican una mayor investigación.

    Citación: Mozaffarian D, Dashti HS, Wojczynski MK, Chu AY, Nettleton JA, Männistö S, et al. (2017) Metanálisis de asociación de todo el genoma del consumo de pescado y EPA + DHA en 17 cohortes de EE. UU. Y Europa. PLoS ONE 12 (12): e0186456. https://doi.org/10.1371/journal.pone.0186456

    Editor: Philipp D. Koellinger, Vrije Universiteit Amsterdam, PAÍSES BAJOS

    Recibió: 9 de julio de 2015 Aceptado: 14 de septiembre de 2017 Publicado: 13 de diciembre de 2017

    Este es un artículo de acceso abierto, libre de derechos de autor, y puede ser reproducido, distribuido, transmitido, modificado, construido sobre o utilizado de otra manera por cualquier persona para cualquier propósito legal. El trabajo está disponible bajo la dedicación de dominio público de Creative Commons CC0.

    Disponibilidad de datos: Los resultados del metanálisis de este estudio están disponibles en dbGAP (número de acceso phs000930).

    Fondos: El estudio Atherosclerosis Risk in Communities (ARIC) se lleva a cabo como un estudio colaborativo respaldado por los contratos del Instituto Nacional del Corazón, los Pulmones y la Sangre N01 ‐ HC ‐ 55015, N01 ‐ HC ‐ 55016, N01 ‐ HC ‐ 55018, N01 ‐ HC ‐ 55019 , N01 ‐ HC ‐ 55020, N01 ‐ HC ‐ 55021, N01 ‐ HC ‐ 55022, R01HL087641, R01HL59367 y R01HL086694 contrato del Instituto Nacional de Investigación del Genoma Humano U01HG004402 y contrato de los Institutos Nacionales de Salud HHSN268200625226C. Los autores agradecen al personal y a los participantes del estudio ARIC por sus importantes contribuciones. La infraestructura fue apoyada en parte por la subvención número UL1RR025005, un componente de los Institutos Nacionales de Salud y la Hoja de Ruta de los NIH para la Investigación Médica. El Dr. Nettleton fue apoyado por un K01 de los Institutos Nacionales de Salud, Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales (5K01DK082729-02). La investigación del Estudio de salud cardiovascular (CHS) informada en este artículo fue respaldada por los contratos HHSN268201200036C, HHSN268200800007C, N01HC55222, N01HC85079, N01HC85080, N01HC85081, N01HC85082, N01HC85083, N01HC85086, N01HC85083, y subvención adicional contribución del Instituto Nacional de Trastornos Neurológicos y Accidentes Cerebrovasculares. El apoyo adicional fue proporcionado por R01AG023629 del Instituto Nacional sobre el Envejecimiento. Puede encontrar una lista completa de los principales investigadores e instituciones de CHS en CHS-NHLBI.org. La manipulación y el genotipado del ADN fueron financiados en parte por la subvención M01RR00069 del Centro Nacional de Recursos de Investigación al centro de Genotipado del Centro de Investigación Clínica General Cedars ‐ Sinai y la subvención DK063491 del Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales al Centro de Investigación de Endocrinología de Diabetes del Sur de California. El Dr. Mozaffarian recibió el apoyo de R01 HL085710 del Instituto Nacional del Corazón, los Pulmones y la Sangre. El estudio DILGOM ha sido financiado por la Academia de Finlandia (números de subvención 139635, 129494, 118065, 129322, 250207, 136895, 141005), la Fundación de Investigación Orion-Farmos, la Fundación Finlandesa para la Investigación Cardiovascular y la Fundación Sigrid Jusélius. Agradecemos a los muchos colegas que contribuyeron a la recopilación y caracterización fenotípica de las muestras clínicas, y a la extracción de ADN y el genotipado de los datos, especialmente a Eija Hämäläinen, Minttu Jussila, Outi Törnwall, Päivi Laiho y al personal de las instalaciones de genotipado del Wellcome Trust. Instituto Sanger. También nos gustaría agradecer a quienes aceptaron participar en el estudio DILGOM. EGCUT recibió financiación mediante subvenciones del 7PM (278913, 306031, 313010), el Centro de Excelencia en Genómica (EXCEGEN) y la Universidad de Tartu (SP1GVARENG). Agradecemos al personal técnico de EGCUT, especialmente al Sr. V. Soo y S. Smit. Los análisis de datos se llevaron a cabo en parte en el Centro de Computación de Alto Rendimiento de la Universidad de Tartu. El trabajo del Family Heart Study (FamHS) fue financiado en parte por las subvenciones del NIH 5R01 HL08770003, 5R01 HL08821502 (Michael A. Province) del NHLBI y 5R01 DK07568102, 5R01 DK06833603 del NIDDK (Ingrid B. Borecki), y por el National Heart, El acuerdo de cooperación del Instituto de Pulmón y Sangre otorga a U01 HL 67893, U01 HL67894, U01 HL67895, U01 HL67896, U01 HL67897, U01 HL67898, U01 HL67899, U01 HL67900, U01 HL67901, U01 HL67902, U01 HL67901, U01 HL67902, U01565 HL56566 , U01 HL56567, U01 HL56568 y U01 HL56569. Los investigadores agradecen al personal y a los participantes de la FHS por sus importantes contribuciones. El Framingham Offspring Study y el Framingham Third Generation Study (FHS) se realizaron en parte utilizando datos y recursos del Framingham Heart Study del National Heart Lung and Blood Institute de los National Institutes of Health y la Boston University School of Medicine. Los análisis reflejan la aportación intelectual y el desarrollo de recursos de los investigadores del Framingham Heart Study que participan en el proyecto SNP Health Association Resource (SHARe). Este trabajo fue parcialmente apoyado por el Estudio del Corazón de Framingham del Instituto Nacional del Corazón, los Pulmones y la Sangre (Contrato No. N01 ‐ HC ‐ 25195) y su contrato con Affymetrix, Inc. para servicios de genotipado (Contrato No. N02 ‐ HL ‐ 6‐4278) . Una parte de esta investigación utilizó Linux Cluster for Genetic Analysis (LinGA-II) financiado por la Fundación Robert Dawson Evans del Departamento de Medicina de la Facultad de Medicina de la Universidad de Boston y el Centro Médico de Boston. También apoyado por el Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales (NIDDK) R01 DK078616 a los Dres. Meigs, Dupuis y Florez, NIDDK K24 DK080140 al Dr. Meigs, y un premio al desarrollo científico médico del Hospital General de Massachusetts y un premio al desarrollo científico clínico Doris Duke Charitable Foundation al Dr. Florez. El Dr. Hivert fue apoyado por el Centre de Recherche Medicale de l’Universite de Sherbrooke (CRMUS) y un premio de becas para profesionales de la salud del Instituto Canadiense de Investigación en Salud (CHIR). La Dra. Nicola McKeown cuenta con el respaldo del acuerdo del USDA No. 58-1950-7-707. Agradecemos a todos los participantes del estudio, así como a todos los involucrados en el Estudio de cohorte de nacimientos de Helsinki. El estudio de cohortes de nacimiento de Helsinki ha sido financiado por subvenciones de la Academia de Finlandia, la Sociedad de Investigación de la Diabetes de Finlandia, la Fundación de Investigación Folkhälsan, la Fundación Novo Nordisk, la Fundación Finska Läkaresällskapet, la Fundación Signe y Ane Gyllenberg, la Universidad de Helsinki, la Fundación Europea de la Ciencia (EUROSTRESS), el Ministerio de Educación, Fundación Ahokas, Fundación Emil Aaltonen. El estudio Salud, Envejecimiento y Composición Corporal (Health ABC) fue apoyado en parte por el Programa de Investigación Intramural de los NIH, los contratos del Instituto Nacional sobre el Envejecimiento N01AG62101, N01AG62103 y N01AG62106. El estudio de asociación de todo el genoma fue financiado por la subvención R01 AG032098 del NIA a Wake Forest University Health Sciences y los servicios de genotipado fueron proporcionados por el Centro de Investigación de Enfermedades Heredadas (CIDR). El CIDR está totalmente financiado a través de un contrato federal entre los Institutos Nacionales de Salud y la Universidad Johns Hopkins, número de contrato HHSN268200782096C. El uso de los datos de Health 2000 en este estudio ha sido financiado por la Academia de Finlandia (subvención 250207) y la Fundación de Investigación Orion-Farmos. Los autores desean agradecer a los muchos colegas que contribuyeron a la recolección y caracterización fenotípica de las muestras clínicas, y la extracción de ADN y el genotipado de los datos, especialmente a Eija Hämäläinen, Minttu Jussila, Outi Törnwall, Päivi Laiho y al personal de las instalaciones de genotipado. en el Wellcome Trust Sanger Institute. También quisieran agradecer a quienes aceptaron participar en el estudio H2000. Los investigadores del estudio de Invecchiare in Chianti (envejecimiento en el área de Chianti, InCHIANTI) agradecen al Programa de Investigación Intramural de los NIH, Instituto Nacional sobre el Envejecimiento, que son responsables de las muestras de InCHIANTI. Los investigadores también agradecen a los participantes de InCHIANTI. La línea de base del estudio InCHIANTI (1998-2000) fue respaldada como un "proyecto específico" (ICS110.1 / RF97.71) por el Ministerio de Salud italiano y, en parte, por el Instituto Nacional sobre el Envejecimiento de EE. UU. (Contratos: 263 MD 9164 y 263 MD 821336). El Estudio Multiétnico de Aterosclerosis (MESA) y el proyecto MESA SHARe se llevan a cabo y están respaldados por los contratos N01-HC-95159 a N01-HC-95169 y RR-024156 del Instituto Nacional del Corazón, los Pulmones y la Sangre (NHLBI). El financiamiento para el genotipado MESA SHARe fue proporcionado por el contrato NHLBI N02 ‐ HL ‐ 6‐4278. Los autores agradecen a los participantes del estudio MESA, al Centro Coordinador, a los investigadores de MESA y al personal del estudio por sus valiosas contribuciones. Puede encontrar una lista completa de los investigadores e instituciones de MESA participantes en http://www.mesa-nhlbi.org. El NHS y HPFS cuentan con el respaldo del Instituto Nacional del Cáncer (NHS: UM1 CA186107, HPFS: UM1 CA167552) con soporte adicional para genotipado. La exploración GW del cáncer de mama del NHS se realizó como parte de la iniciativa Marcadores genéticos de susceptibilidad del cáncer del NCI (R01CA40356, U01-CA98233). El GWAS de diabetes tipo 2 del NHS / HPFS (U01HG004399) es un componente de un proyecto colaborativo que incluye otros 13 GWAS financiados como parte de los estudios de la Asociación de Medio Ambiente Genético (GENEVA) bajo la Iniciativa de Salud, Medio Ambiente y Genes de los NIH (GEI) (U01HG004738) , U01HG004422, U01HG004402, U01HG004729, U01HG004726, 01HG004735, U01HG004415, U01HG004436, U01HG004423, U01HG004728, AHG006033) con el apoyo adicional de individuo NIH Institutos (NIDCR: U01DE018993, U01DE018903 NIAAA: U10AA008401, NIDA: P01CA089392, 01DA013423 NCI: CA63464, CA54281, CA136792 , Z01CP010200). El Centro de Coordinación de GINEBRA (U01HG004446) brindó asistencia con la armonización de fenotipos y limpieza de genotipos, así como con la coordinación general del estudio. y el Centro de Investigación de Enfermedades Heredadas de la Universidad Johns Hopkins, con el apoyo del NIH GEI (U01HG004438) y el contrato de los NIH "Genotipado de alto rendimiento para estudiar las contribuciones genéticas a las enfermedades humanas" (HHSN268200782096C). El NHS / HPFS CHD GWAS fue apoyado por Merck / Rosetta Research Laboratories, North Wales, PA. El NHS / HPFS Kidney GWAS fue apoyado por NIDDK: 5P01DK070756. La generación y gestión de datos de genotipos GWAS para el Estudio de Rotterdam cuenta con el apoyo de la Organización de Investigación Científica de los Países Bajos NWO Investments (nr. 175.010 .2005.011, 911‐03‐012), el Instituto de Investigación de Enfermedades de las Personas Mayores (014‐93‐015 RIDE2), EUROSPAN (Red Europea de Investigación de Poblaciones Especiales orkLSHG ‐ CT ‐ 2006‐01947), la Organización de los Países Bajos para la Investigación Científica (Pionier, 047.016.009, 047.017.043050‐060‐810), el Centro Médico Erasmus y el Centro de Biología de Sistemas Médicos (CMSB I y II y Grand National Genomics Iniciativa) de la Iniciativa de Genómica de los Países Bajos (NGI) El estudio de Rotterdam está financiado además por el Centro Médico Erasmus y la Universidad Erasmus de Rotterdam, Organización de los Países Bajos para la Investigación y el Desarrollo de la Salud (ZonMw), el Instituto de Investigación de Enfermedades en los Ancianos (RIDE), el Ministerio de Educación, Cultura y Ciencia, el Ministerio de Sanidad, Bienestar y Deportes, la Comisión Europea (DG XII) y el Ayuntamiento de Rotterdam. Agradecemos a Pascal Arp, Mila Jhamai, Dr. Michael Moorhouse, Marijn Verkerk y Sander Bervoets por su ayuda en la creación de la base de datos GWAS. Los autores agradecen a los participantes del estudio, al personal del Estudio de Rotterdam y a los médicos generales y farmacéuticos participantes. El estudio helénico de Interacciones entre SNPs y Eating in Atherosclerosis Susceptibility (THISEAS) agradece al Genotyping Facility del Wellcome Trust Sanger Institute por tipificar las muestras de THISEAS y, en particular, a Sarah Edkins y Cordelia Langford. El PD cuenta con el apoyo de Wellcome Trust. El WGHS cuenta con el respaldo de HL043851 y HL080467 del Instituto Nacional del Corazón, los Pulmones y la Sangre y el CA047988 del Instituto Nacional del Cáncer, la Fundación Donald W. Reynolds y la Fundación Leducq, con el apoyo científico colaborativo y la financiación para la genotipificación proporcionada por Amgen. El estudio Young Finns ha sido financiado por la Academia de Finlandia: becas 126925, 121584, 124282, 129378 (Salve), 117787 (Gendi) y 41071 (Skidi), la Institución de Seguro Social de Finlandia, Kuopio, Tampere y la Universidad de Turku. Fondos médicos hospitalarios (subvención 9M048 para TeLeht), Fundación Juho Vainio, Fundación Paavo Nurmi, Fundación Finlandesa de Investigación Cardiovascular y Fundación Cultural Finlandesa, Fundación Tampere Tuberculosis y Fundación Emil Aaltonen (TL). Se agradece la asistencia técnica experta en los análisis estadísticos de Irina Lisinen, Ville Aalto y Mika Helminen. El contenido es responsabilidad exclusiva de los autores y no necesariamente representa las opiniones oficiales de los Institutos Nacionales de Salud o de los otros patrocinadores.

    Conflicto de intereses: Luc Djousse informa haber recibido subvenciones iniciadas por investigadores (estudios de ácidos grasos omega-3) de los NIH y Amarin Pharma, Inc. Actualmente se desempeña como consultor ad hoc para Amarin Pharma, Inc. Bruce Psaty informa que participa en el DSMB de un ensayo clínico para un dispositivo financiado por el fabricante (Zoll LifeCor) y en el Comité Directivo del Proyecto de Acceso a Datos Abiertos de Yale financiado por Johnson & amp Johnson ". Paul Ridker ha recibido fondos de subvenciones para investigación de AstraZeneca, un fabricante de un producto de aceite de pescado recetado. Oscar Franco trabaja en ErasmusAGE, un centro de investigación sobre el envejecimiento a lo largo de la vida financiado por Nestlé Nutrition (Nestec Ltd.) Metagenics Inc. y AXA. Nestlé Nutrition (Nestec Ltd.) Metagenics Inc. y AXA no participaron en el diseño y la realización de la colección del estudio. manejo, análisis e interpretación de los datos y elaboración, revisión o aprobación del manuscrito. Dr.Los informes de Mozaffarian informan sobre honorarios o consultoría ad hoc de Bunge, Haas Avocado Board, Nutrition Impact, Amarin, Astra Zeneca, Boston Heart Diagnostics, GOED y Life Sciences Research Organization y juntas asesoras científicas, Unilever North America y Elysium Health. patente, que incluye al Dr. Mozaffarian como uno de los tres co-inventores, para el uso del ácido trans-palmitoleico para prevenir y tratar la resistencia a la insulina, la diabetes tipo 2 y afecciones relacionadas. Todos los demás autores declaran no tener ningún conflicto de intereses. Esto no altera nuestra adherencia a las políticas de PLOS ONE sobre el intercambio de datos y materiales.

    Abreviaturas: EPA, ácido eicosapentaenoico DHA, ácido docosahexaenoico LD, desequilibrio de ligamiento GWAS, estudio de asociación de todo el genoma


    4. Discusión

    Los algoritmos de aprendizaje automático (ML) han captado recientemente la atención de la comunidad científica debido a su flexibilidad, facilidad de uso y capacidad para aprender de los datos proporcionados [55, 56]. A través de ML, ha sido posible desarrollar modelos para identificar individuos más susceptibles a desarrollar enfermedades comunes y raras [58,59,60,61,62,63,67,88,89,90,91,92,93] y determinar diversos perfiles de respuesta fenotípica en enfermedades infecciosas [94,95,96]. Teniendo en cuenta que los modelos basados ​​en ML y computacionales tienen el potencial de superar las limitaciones de los modelos clínicos establecidos actualmente para el diagnóstico y seguimiento de enfermedades neurodegenerativas, incluida la EA [97], aquí estudiamos la viabilidad de los algoritmos de ML para predecir el Alzheimer & # x02019s edad de aparición de la enfermedad (ADAOO) en individuos del aislado genético Paisa. Sostenemos que estos modelos predictivos basados ​​en ML mejorarán nuestra comprensión de la enfermedad y proporcionarán una definición más precisa y precisa de los hitos de la historia natural de la EA.

    Anteriormente identificamos variantes protectoras (& # x003b2 ^ & # x000a0 & # x0003e 0 Tabla 1) y dañinas (& # x003b2 ^ & # x000a0 & # x0003c 0 Tabla 1) de efecto significativo en esta comunidad que modifican la ADAOO de todo el exoma Genotipado y secuenciación de exoma completo [35,36] utilizando modelos de efectos lineales mixtos y algunos métodos ML [77]. Por tanto, la presencia del APOE * E2 alelo solo retrasa ADAOO hasta

    12 años en PSEN1 Portadores de la mutación E280A. Además, este mismo alelo retrasa ADAOO hasta

    17 años cuando se incluye en un modelo oligogénico de EA (tabla 1) [36]. El análisis posterior condujo al desarrollo de un árbol de clasificación que utiliza una partición recursiva avanzada para determinar si los individuos portadores de esta mutación desarrollarían EA familiar de inicio temprano o tardío [36]. Siguiendo un enfoque similar, nuestro grupo pudo identificar variantes del modificador ADAOO en individuos con EA esporádica (Tabla 1) [35].

    Después de evaluar varios algoritmos predictivos basados ​​en ML para ADAOO en individuos que padecen la forma más agresiva de EA (Figura 1 y Tabla 2) y en individuos con EA esporádica (Figura 2 y Tabla 3), identificamos que los algoritmos glmboost y glmnet funcionan mejor para predecir ADAOO en datos no vistos para cada cohorte, respectivamente. Estos modelos predictivos basados ​​en ML mostraron resultados prometedores que pueden extenderse fácilmente al entorno clínico [98]. En particular, el algoritmo glmboost en E280A PSEN1 AD produjo valores MAE por debajo del 4% y valores RMSE de

    4 (Tabla 2), mientras que el algoritmo glmnet arrojó valores MAE por debajo del 1% y valores RMSE & # x0003c1 en sAD (Tabla 3), lo que sugiere que es factible predecir AOO en estas cohortes. Usando estos modelos predictivos ADAOO basados ​​en ML, el diagnóstico de EA podría hacerse antes y los tratamientos potenciales se brindan mucho antes de que comiencen a aparecer los síntomas.

    El análisis de importancia variable muestra que los predictores ADAOO más relevantes en FAD son variantes APOE-rs7412, FCRL5-rs16838748, GPR20-rs36092215, IFI16-rs62621173, AOAH-rs12701506 y PYNLIP-rs2682585 (Figura 1 by Figura 3 a). Además, variantes de protección APOE-rs7412, GRP20-rs36092215 y FCRL5-rs16838748 tienen el mayor efecto sobre ADAOO y son los predictores más importantes de ADAOO, mientras que las variantes TRIM22-rs12364019, IFI16-rs62621173 y AOAH-rs12701506 tienen el efecto más dañino sobre ADAOO y se encuentran entre los predictores más importantes de ADAOO (Figura 4 a). La comparación de estos resultados con los de modelos previos que predecían el estado de la EA (inicio temprano versus tardío) [36] muestra algunas discrepancias en cómo se clasifican las variantes genéticas y la relevancia de la información demográfica (es decir, sexo y años de educación) para predecir Estado de AD. Aunque predecir el estado de la EA puede ser de interés en algunos entornos clínicos, el uso de algoritmos predictivos basados ​​en ML para ADAOO es un paso adelante tanto en nuestra comprensión de la enfermedad como en nuestro objetivo de brindar atención clínica oportuna a las personas de esta comunidad. Si bien la EA no se puede curar y no hay forma de detener o ralentizar su progresión en este momento, nuestro enfoque ofrece la posibilidad de tratar los síntomas varios años antes de que comiencen a aparecer [4,99,100] bajo un esquema de biomarcadores adaptado individualmente en lugar de utilizar una estrategia única para todos los promedios de la población [99,100,101], teniendo en cuenta la variabilidad individual. Aunque nuestros resultados ciertamente pueden utilizarse para llevar la investigación sobre la EA en esta dirección, también es importante considerar las implicaciones legales y la preparación que deben tener los proveedores de salud, neurólogos y centros especializados en EA y neurodegeneración para interpretar estos hallazgos y proporcionar asesoramiento adecuado a los pacientes y sus familias [102,103,104]. Otro desafío en los próximos años es también reducir significativamente las conclusiones mal informadas producidas por los métodos ML en ausencia de experiencia en el dominio clínico [105]. En este sentido, es fundamental tener un conocimiento profundo de los antecedentes clínicos de la EA, cómo operan los métodos de ML y cómo los resultados se pueden interpretar y traducir al paciente y sus familiares [57].

    Variantes GPR45-rs35946826 y MAGI3-rs61742849 tienen un efecto más dañino sobre ADAOO y son los predictores más importantes de ADAOO en individuos con sAD (Figura 4 b). Curiosamente, el efecto nocivo sobre ADAOO de variantes MYCBPAP-rs61749930 y EBLN1-rs838759 difiere de los de otras variantes, pero su importancia para predecir ADAOO es menor, mientras que las variantes CHGB-rs236150 y WDR46-rs3130257 aceleran ADAOO y tienen mayor importancia variable (Figura 4 b). Entre las variantes genéticas protectoras, el efecto más alto lo produce OPRM1-rs675026, seguido de HERC6-rs7677237 y C3orf20-rs34230332, siendo el primero el menos importante. Curiosamente, variante C16orf96-rs17137138 es el predictor ADAOO más importante a pesar de su pequeño efecto (Figura 4 b).

    En resumen, aquí exploramos la viabilidad de los algoritmos ML para predecir ADAOO utilizando datos demográficos y genéticos en individuos del pedigrí más extenso del mundo que segrega una forma severa de EA causada por una mutación completamente penetrante en el PSEN1 gen e individuos con sAD habitando la misma región geográfica. Basado en RMSE, MAE y R 2, nuestros resultados indican que los algoritmos ML son una alternativa factible y prometedora para evaluar ADAOO en estos individuos. Curiosamente, los predictores más importantes en estos modelos predictivos basados ​​en ML fueron las variantes genéticas, lo que permite evaluar la ADAOO a nivel individual y abre una nueva medicina personalizada y alternativas genómicas predictivas para la EA [98,99,100,101].

    Los estudios futuros deben evaluar la capacidad de los modelos predictivos basados ​​en ML para ADAOO presentados aquí con datos fuera de la muestra (es decir, determinar qué tan cerca está el modelo de predecir ADAOO en un paciente con datos genéticos conocidos que no formaban parte de nuestras cohortes ) y el desarrollo de modelos de progresión de la enfermedad basados ​​en ML [38,50,51,60]. En última instancia, estos modelos podrían ayudarnos a proporcionar una plataforma fácil de usar, con una posible aplicación en el entorno clínico, para proporcionar estimaciones tempranas y precisas de ADAOO y la evolución de la EA en personas con antecedentes familiares de la enfermedad.


    Ver el vídeo: Tuberculosis - Patología y Citología UIS (Enero 2022).