Información

Haplotipos en fase


Soy nuevo en esta área (pero no en programación y algoritmos) y quiero ayudar a un amigo a resolver un problema (no necesito código fuente, solo quiero entender el problema en sí).

Necesita un ciclo para la fase de los haplotipos ("Necesito encontrar patrones de haplotipos de la cadena SNP"). También dijo: "El método es simple, necesito comparar combinaciones de homocigotas (AA, BB) en secuencia con cadenas de haplotipos. E ignorar los pares de heterocigotos (AB) en sus posiciones correctas".

Una entrada tiene una cadena SNP y un montón de cadenas de haplotipos (matriz).

Cualquier ayuda es muy apreciada.

¡Gracias!


En lugar de volver a explicar los conceptos básicos de la fase de haplotipos, lo remitiré a documentación útil. Uno de los primeros trabajos sobre la fase de haplotipos ha sido realizado por Andrew Clark. Aquí puede encontrar una bonita presentación de diapositivas que detalla el problema. Aquí se está llevando a cabo una discusión útil sobre Biostars. Le sugiero que utilice varios enfoques que ya se han desarrollado: mis favoritos son Beagle y fastPHASE.


Lección 10: Fase de haplotipos - Recuperación de la comunidad

Polimorfismos de un sólo nucleótido (SNP) son mutaciones que ocurren a lo largo de la evolución. Una visión simplista de estos sería pensar en ellos como alrededor de 100.000 posiciones donde se producen variaciones en el genoma humano.

Llamadas SNP es una técnica que se utiliza para identificar SNP en el genoma de la muestra. El principal enfoque computacional adoptado aquí son las lecturas de un genoma, primero mapeamos las lecturas en varias posiciones en el genoma utilizando los métodos de alineación discutidos en la última conferencia. Algunas leen mapas de ubicaciones sin variación con respecto a la referencia.

En un nivel alto, el pipeline se puede ver de la siguiente manera:

El principal problema estadístico es poder distinguir errores en las lecturas de SNP realmente diferentes en el genoma subyacente. En la práctica, por lo general tenemos una cobertura muy alta, cada posición en el genoma está cubierta por muchas lecturas. Por lo tanto, podemos ejecutar una prueba estadística simple para ver si una lectura que no está de acuerdo con la referencia se debe a errores o debido a que el genoma del individuo en realidad es diferente.

SNP llamando a organismos diploides

Si un organismo tuviera solo una copia de cada cromosoma, el problema de las llamadas de SNP se reduciría a tomar la mayoría de la base de lecturas alineadas con cada posición. Los humanos, sin embargo, son diploide. Tienen dos copias de cada cromosoma: una materna y otra paterna.

Durante la secuenciación, fragmentamos el material de ADN, por lo que el secuenciador no puede distinguir entre el ADN materno y paterno. Cuando asignamos cada lectura a la secuencia de referencia, sabemos su ubicación en el genoma, pero no sabemos si proviene del cromosoma materno o paterno. Representamos la variación en cada posición como un 1 y ninguna variación como un 0. En cada posición, tenemos 4 posibilidades:

  1. 00 (sin variación)
  2. 11 (ambas copias son diferentes a la referencia)
  3. 10 o 01 (una de las copias es la referencia y la otra es la variación)

Observamos que asumimos aquí que solo hay una variante en cada posición. Ésta es una aproximación razonable a la realidad.

Las posiciones con 00 y 11 se llaman homocigoto posiciones. Las posiciones con 10 o 01 se llaman heterocigoto posiciones. Observamos que el genoma de referencia no es ni el genoma paterno ni el materno, sino el genoma de un ser humano no relacionado (o más precisamente la mezcla de genomas de unos pocos individuos). De un individuo haplotipo es el conjunto de variaciones en los cromosomas de ese individuo. Observamos que como dos haplotipos humanos cualesquiera son 99,9% similares, el problema del mapeo se puede resolver con bastante facilidad.

Después de mapear las lecturas, obtenemos información sobre la probabilidad de las cuatro posibilidades anteriores. Para las llamadas de SNP, podemos medir (estimar) el número de variaciones en cada posición: 0, 1 o 2. Tenga en cuenta que no podemos distinguir entre los dos casos heterocigotos (01 frente a 10). Distinguir estos dos es importante porque muchas enfermedades son multialélico. Es decir, múltiples posiciones determinan una enfermedad. Además, las enfermedades dependen de las proteínas producidas en un individuo. Esto depende de que los SNP estén presentes en el mismo cromosoma en lugar de estar presentes en diferentes cromosomas.

Fase de haplotipos

Fase de haplotipos es el problema de inferir información sobre el haplotipo de un individuo. Para resolver este problema, existen muchos métodos.

Primero, discutimos qué tipo de datos se necesitan para realizar la fase. Digamos que tenemos dos variantes, SNP1 y SNP2. La distancia entre los dos es del orden de 1000 pb (es decir, están bastante separados). Para realizar la fase de haplotipos, se necesita cierta información que nos permita conectar los dos SNP para poder inferir qué variantes se encuentran en el mismo cromosoma. Si no tiene una sola lectura que abarque las dos posiciones, entonces no tiene ninguna información sobre la conexión entre los dos SNP.

Las lecturas de Illumina suelen tener una longitud de 100-200 pb y, por lo tanto, son demasiado cortas; sin embargo, existen varias tecnologías que proporcionan esta información de largo alcance:

Lecturas de pareja - Con un paso especial de preparación de la biblioteca, se pueden obtener pares de lecturas que sabemos que provienen del mismo cromosoma pero que están muy separadas. Ellos pueden ser

1000 bp aparte, y conocemos la distribución de la separación.

Leer nubes - Iniciada por 10x Genomics, esta técnica de preparación de bibliotecas relativamente nueva utiliza códigos de barras para etiquetar lecturas y está diseñada de tal manera que las lecturas con el mismo código de barras provienen del mismo cromosoma. El conjunto de lecturas con el mismo código de barras se denomina leer nube. Cada nube de lectura consta de unos pocos cientos de lecturas que pertenecen a un segmento de 50k-100k de longitud del genoma.

Lecturas largas - Discutido en conferencias anteriores.

Para ambas tecnologías, la separación entre lecturas vinculadas es una variable aleatoria, pero se puede calcular alineando las lecturas con una referencia.

En la práctica, el software principal utilizado para la fase de haplotipos es HapCompass y HapCut. HapCut plantea la fase de haplotipos como un problema de corte máximo y lo resuelve utilizando heurística. HapCompass, por otro lado, construye un gráfico en el que cada nodo es un SNP y cada borde indica que se ven dos valores de SNP en la misma lectura. Luego, HapCompass resuelve el problema de fase de haplotipos al encontrar árboles de expansión de peso máximo en el gráfico. Para las nubes de lectura, un software de lupa de 10x Genomics visualiza las nubes de lectura de NA12878, una línea celular humana con un genoma que se utiliza con frecuencia como referencia en experimentos computacionales.

El problema computacional

Aquí consideramos una versión simplificada del problema de fase de haplotipos. Suponemos que tenemos las ubicaciones de las posiciones heterocigotas en el genoma, y ​​solo consideramos lecturas que vinculan estas posiciones.

La figura anterior muestra dos cromosomas con SNP heterocigotos que queremos identificar qué variaciones ocurrieron en el mismo cromosoma. Tenga en cuenta que pueden ocurrir errores en las lecturas del par de compañeros, como se muestra arriba, lo que resulta en llamadas SNP erróneas. Demostraremos que el problema de la fase de haplotipos se puede formular como un recuperación comunitaria problema.

Problema de recuperación de la comunidad

En el recuperación comunitaria problema, se nos da un gráfico con un montón de nodos, y cada nodo pertenece a uno de los múltiples clústeres como se muestra en la siguiente figura. El problema de la recuperación es recuperar los clústeres (colores) en función de la información del borde entre los nodos. Este problema se ve comúnmente en las redes sociales donde los nodos pueden ser publicaciones de blogs, por ejemplo, y queremos identificar qué publicaciones son de republicanos y cuáles de demócratas. Los bordes describen cómo las publicaciones se vinculan entre sí.

Volviendo a nuestro problema de fase de haplotipos, podemos definir cada índice como un nodo en un gráfico. Esto da como resultado cuatro nodos correspondientes a las 4 ubicaciones de SNP heterocigotas. También podemos definir dos comunidades y para nuestro gráfico:

Los SNP 1 y 2 pertenecen a la comunidad y los SNP 3 y 4 pertenecen a la comunidad. En la práctica, es posible que tengamos 100.000 nodos con la mitad en cada comunidad. Una lectura de pareja de pares que une dos nodos da como resultado un borde entre esos dos nodos, y el peso del borde depende de la paridad de la lectura. Demostraremos que recuperar las comunidades equivale a resolver el problema de la fase de haplotipos. La partición nos dará toda la información excepto 1 bit: qué SNP corresponden al cromosoma materno.

Una condición necesaria para el éxito de la fase de haplotipos es conectividad cada nodo tiene una ruta hacia el otro nodo. Si no hay errores en las lecturas, podemos recuperar las comunidades utilizando un algoritmo codicioso. Podemos comenzar en un nodo arbitrario, asignarlo a la comunidad y luego seguir un borde que sale del nodo. Si el borde tiene un peso 1 (lo que indica que los dos nodos son idénticos), también asignamos el siguiente nodo a la comunidad. De lo contrario, lo asignamos a comunidad. Tenga en cuenta que solo podemos resolver los nodos en dos comunidades. Sin información adicional, no podemos saber qué comunidad corresponde a qué cromosoma.

Sin embargo, el enfoque anterior no es robusto a los errores en las lecturas: una vez que hay un solo error en una lectura, el algoritmo cometerá errores en las comunidades de los nodos subsiguientes que visita el algoritmo. Un enfoque global alternativo para encontrar las comunidades sería enumerar todos los posibles pares de comunidades. Luego, simplemente elegiríamos la solución que resulte en la máxima probabilidad dados los datos. Este algoritmo se puede reducir al MAXCUT problema, que es NP-hard.

Para buscar un algoritmo alternativo que sea más eficiente y, sin embargo, robusto, primero asumiremos que es igualmente probable que haya lecturas de modelo de enlace uniforme entre cualquier par de SNP. Para nuestro ejemplo de haplotipo, podemos construir la matriz de adyacencia

donde posición si los SNP en los índices son iguales. De lo contrario, . Esta matriz captura toda la información del gráfico. Afirmamos que las comunidades se pueden extraer de manera eficiente de esta matriz bajo el modelo de vinculación uniforme. Exploraremos esta próxima lección más a fondo.


Secuenciación por fases

Históricamente, la secuenciación del genoma completo generaba una única secuencia de consenso sin distinguir entre variantes en cromosomas homólogos. La secuenciación por fases, o fase del genoma, aborda esta limitación mediante la identificación de alelos en los cromosomas maternos y paternos. Esta información suele ser importante para comprender los patrones de expresión génica para la investigación de enfermedades genéticas.

Beneficios de la secuenciación por fases

La secuenciación de próxima generación (NGS) permite la fase de todo el genoma sin depender del análisis trío o la inferencia estadística. Al identificar la información del haplotipo, la secuenciación por fases puede informar estudios de rasgos complejos, que a menudo están influenciados por interacciones entre múltiples genes y alelos. La fase también puede proporcionar información valiosa para la investigación de enfermedades genéticas, ya que las alteraciones de los alelos en las posiciones cis o trans de un cromosoma pueden causar algunos trastornos genéticos.

El escalonamiento puede ayudar a los investigadores a:

  • Analizar heterocigotos compuestos
  • Medir la expresión específica de alelos
  • Identificar variante de vinculación
¿Qué es la secuenciación por fases?

Obtenga más información sobre los beneficios de la eliminación gradual del genoma.

Beneficios de la secuenciación por fases
Herramientas de selección de productos y planificación de experimentos

Encuentre herramientas que lo ayuden a elegir los productos adecuados para sus necesidades y planifique sus experimentos. Identifique el kit de preparación de biblioteca o microarreglo adecuado, calcule la cobertura de secuenciación, explore métodos compilados a partir de publicaciones, diseñe ensayos personalizados y más.

Soluciones de fase del genoma completo humano

Asociación de Genómica 10x

El kit de preparación de bibliotecas de genomas de cromo genómico 10x proporciona información de largo alcance en una escala de todo el genoma, incluida la llamada de variantes, la fase y la caracterización extensa de la estructura genómica utilizando tecnología NGS.

BaseSpace Sequence Hub

El entorno informático de genómica de Illumina, que ofrece aplicaciones especializadas para el análisis y la gestión de datos NGS.

¿Está interesado en recibir boletines, estudios de casos e información sobre técnicas de análisis genómico?

Recursos adicionales

Secuenciador flexible de alto rendimiento

El sistema NovaSeq ofrece flexibilidad y rendimiento escalables para prácticamente cualquier genoma, método de secuenciación y escala de proyecto.

Tecnología de secuenciación precisa de lectura larga

La tecnología Illumina ensambla lecturas largas sintéticas a partir de lecturas más cortas para proporcionar más información y, al mismo tiempo, mantener la precisión.

Para uso exclusivo en investigación

No debe usarse en procedimientos de diagnóstico excepto cuando se indique específicamente.

Tecnologías innovadoras

En Illumina, nuestro objetivo es aplicar tecnologías innovadoras al análisis de la variación y función genética, haciendo posible estudios que ni siquiera eran imaginables hace tan solo unos años. Para nosotros es fundamental ofrecer soluciones innovadoras, flexibles y escalables para satisfacer las necesidades de nuestros clientes. Como empresa global que otorga un gran valor a las interacciones colaborativas, la entrega rápida de soluciones y la prestación del más alto nivel de calidad, nos esforzamos por afrontar este desafío. Las tecnologías innovadoras de secuenciación y matriz de Illumina están impulsando avances revolucionarios en la investigación de las ciencias de la vida, la genómica traslacional y del consumidor y el diagnóstico molecular.


Introducción

Los defectos genéticos son la fuente de una amplia y diversa gama de enfermedades monogénicas o mendelianas que son individualmente raras pero colectivamente comunes. Hasta el momento, se conocen más de 5000 trastornos y rasgos diferentes que son causados ​​por mutaciones en un solo gen [1]. La secuenciación del genoma y del transcriptoma se utiliza cada vez más para diagnosticar genéticamente a los pacientes que padecen una presunta enfermedad rara monogénica [2-4]. Sin embargo, la detección de variantes que causan enfermedades entre miles de variantes benignas es un gran desafío. Las estrategias y directrices ampliamente utilizadas para la priorización de variantes se basan en la nocividad prevista o conocida de una variante, su frecuencia en estudios de secuenciación a gran escala y su segregación con el fenotipo de la enfermedad [5, 6]. Suponiendo una herencia monogénica autosómica recesiva, las variantes que causan la enfermedad son homocigóticas o heterocigóticas compuestas con dos mutaciones heterocigotas juntas que afectan a ambos alelos parentales de un locus génico [7]. En consecuencia, los flujos de trabajo clínicos tienen como objetivo detectar con preferencia variantes raras que se predice que son dañinas y son homocigotas o heterocigotas compuestas en el paciente. La determinación precisa de si dos variantes heterocigotas están ubicadas en el mismo o en diferentes alelos parentales es un desafío al que se enfrentan todos los procesos de diagnóstico en el contexto de las enfermedades monogénicas recesivas.

Los haplotipos pueden resolverse experimentalmente durante la secuenciación o inferirse computacionalmente posteriormente [8]. Se han desarrollado varias tecnologías para la secuenciación del genoma resuelto por haplotipos, pero rara vez se utilizan en un entorno clínico debido a su costo y complejidad prohibitivos. Las herramientas computacionales para la eliminación gradual utilizan datos de secuenciación de miembros de la familia, lecturas que abarcan múltiples variantes o paneles de haplotipos de referencia. Los datos de secuenciación de los padres u otros miembros de la familia son más informativos para la eliminación gradual, pero es posible que no siempre estén disponibles y no se puedan usar para variantes que son heterocigotas tanto en los padres como en el niño. El uso de lecturas que abarcan múltiples variantes no requiere datos adicionales, pero la longitud de las lecturas subyacentes limita el número de variantes que se pueden escalonar. Los métodos de fases basados ​​en paneles son útiles para variantes comunes, pero fallan para variantes raras que son el foco al diagnosticar enfermedades raras. La combinación de diferentes estrategias de fases es prometedora, ya que puede compensar las desventajas de los enfoques individuales.

Las herramientas de fase existentes ofrecen una utilidad limitada para fines clínicos porque están diseñadas para fase de cromosomas completos en lugar de loci genéticos de interés o para incorporar solo una estrategia de fase. phASER mejora el rango de fase de la fase basada en lectura incorporando lecturas de secuenciación de ARN además de las lecturas de secuenciación de ADN, pero no realiza una fase basada en el pedigrí [9]. WhatsHap combina la fase basada en lectura con la fase basada en el pedigrí, pero no ofrece opciones para restringir la fase a variantes o regiones genómicas preseleccionadas [10]. El usuario tendría que aceptar tiempos de ejecución innecesariamente largos para la fase de cromosomas completos o recortar los datos de secuenciación a las regiones de interés antes de cada ejecución, lo que requeriría tiempo y recursos de almacenamiento adicionales. Ninguna opción es factible en un entorno clínico, especialmente cuando se trata de grandes cohortes de miles de pacientes con pocas regiones de interés. Además, ninguna de estas herramientas de fase es capaz de etiquetar pares de variantes heterocigotas como clínicamente irrelevantes utilizando el hecho de que los genotipos de padres sanos contradicen la patogenicidad potencial del par.

Para superar estas limitaciones, desarrollamos SmartPhase, una herramienta de fases lista para usar diseñada para flujos de trabajo clínicos para mejorar el análisis de posibles pares de variantes heterocigóticas compuestas en términos de simplicidad, velocidad y precisión. SmartPhase puede utilizar de forma flexible la información de secuenciación de trío disponible y leer información de ADN y de datos de secuenciación de ARN. Además, informa sobre la confianza de sus predicciones e implementa reglas para excluir lógicamente las constelaciones variantes que no pueden causar enfermedades.


Enhebrado de haplotipos: eliminación precisa de poliploides a partir de lecturas largas

La resolución de genomas a nivel de haplotipo es crucial para comprender la historia evolutiva de las especies poliploides y para diseñar estrategias de reproducción avanzadas. Como problema computacional altamente complejo, la fase poliploide todavía presenta desafíos considerables, especialmente en regiones de haplotipos colapsados.

Presentamos la polifase W hats H ap, un enfoque novedoso de dos etapas que aborda estos desafíos mediante (i) agrupando las lecturas utilizando una función de puntuación dependiente de la posición y (ii) pasando los haplotipos a través de los grupos mediante programación dinámica. Demostramos en un conjunto de datos simulados que esto da como resultado haplotipos precisos con tasas de error de cambio que son aproximadamente tres veces más bajas que las obtenibles con el estado actual de la técnica e incluso alrededor de siete veces más bajas en regiones de haplotipos colapsantes. Usando un conjunto de datos reales que comprenden datos de secuenciación de papa tetraploide de lectura larga y corta, mostramos que la polifase de W hats H ap es capaz de eliminar la mayoría de los genes de papa después de la corrección de errores, lo que permite el ensamblaje de regiones genómicas locales de interés a nivel de haplotipo. Nuestro algoritmo se implementa como parte de la ampliamente utilizada herramienta de código abierto WhatsHap y está listo para ser incluido en la configuración de producción.


Fase de haplotipos a partir de datos de secuencia

En los últimos años, nuestro grupo ha escrito varios artículos sobre la inferencia de haplotipos a partir de datos de secuencia.

El problema de la inferencia de haplotipos, conocido como fase de haplotipos, ha tenido una larga historia en la genética computacional y el problema en sí ha tenido varias encarnaciones. Las tecnologías de genotipado obtienen información & # 8220genotype & # 8221 sobre SNP que mezcla la información genética de ambos cromosomas. Sin embargo, muchos análisis genéticos requieren información del & # 8220haplotipo & # 8221, que es la información genética de cada cromosoma (ver Figura).

En los primeros días antes de que estuvieran disponibles los conjuntos de datos de referencia, los métodos se aplicaban a un gran número de individuos genotipados que intentaban identificar un pequeño número de haplotipos que explicaban la mayoría de los genotipos individuales. Los métodos de este período incluyen PHASE (11254454) y HAP (14988101) (de nuestro grupo con Eran Halperin). La figura es en realidad una de las diapositivas de Eran & # 8217 de alrededor de 2002.

Una vez que los conjuntos de datos de referencia como HapMap estuvieron disponibles, los métodos basados ​​en imputación como IMPUTE (10.1038 / ng2088) y BEAGLE (10.1016 / j.ajhg.2009.01.005) dominaron los enfoques de fases anteriores porque aprovecharon la información de los conjuntos de datos de referencia cuidadosamente seleccionados.

En principio, los métodos de imputación o escalonamiento de haplotipos se pueden aplicar directamente a los datos de secuenciación llamando primero a los genotipos en los datos de secuenciación y luego aplicando un enfoque de imputación o escalonamiento. Sin embargo, dado que cada lectura se origina en un solo cromosoma, si una lectura abarca dos genotipos, proporciona información sobre la fase del haplotipo. La combinación de estas lecturas para construir haplotipos se conoce como el problema & # 8220haplotypes assembly & # 8221, que fue iniciado por Vikas Bansal y Vineet Bafna (10.1093 / bioinformatics / btn298), (10.1101 / gr.077065.108). Dan He, en nuestro grupo, desarrolló un método óptimo para el ensamblaje de haplotipos que garantiza encontrar la solución óptima para lecturas cortas y reduce el problema del ensamblaje de haplotipos para lecturas más largas a MaxSAT, que encuentra la solución óptima para la gran mayoría de casos de problemas (10.1093 / bioinformática / btq215). Más recientemente, otros han desarrollado métodos que pueden descubrir soluciones óptimas para todos los casos de problemas (10.1093 / bioinformatics / btt349). En su artículo, Dan también mostró que el ensamblaje de haplotipos siempre tendrá un desempeño inferior al de los métodos de fase tradicionales para datos de secuenciación de lectura corta porque muy pocas de las lecturas abarcan múltiples genotipos.

Para superar este problema, Dan extendió sus métodos para realizar conjuntamente la imputación y el ensamblaje de haplotipos (10.1089 / cmb.2012.0091), (10.1016 / j.gene.2012.11.093). Estos métodos superaron tanto a los métodos de imputación como a los métodos de ensamblaje de haplotipos, pero desafortunadamente son demasiado lentos y requieren mucha memoria para aplicarlos en la práctica. Más recientemente, en nuestro grupo, Wen-Yun Yang, Zhanyong Wang, Farhad Hormozdiari con Bogdan Pasaniuc desarrollaron un método de muestreo que es rápido y preciso para combinar el ensamblaje de haplotipos y la imputación (10.1093 / bioinformatics / btt386).

Las citas completas de nuestros artículos están aquí:

Él, Dan Han, Buhm Eskin, Eleazar

En: J Comput Biol, 20 (2), págs. 80-92, 2013, ISSN: 1557-8666.

Yang, Wen-Yun Y Hormozdiari, Farhad Wang, Zhanyong He, Dan Pasaniuc, Bogdan Eskin, Eleazar

En: Bioinformatics, 2013, ISSN: 1367-4811.

En: Gene, 2012, ISSN: 1879-0038.

Él, Dan Choi, Arthur Pipatsrisawat, Knot Darwiche, Adnan Eskin, Eleazar


Krawitz, P. M. et al. El filtrado de identidad por descendencia de los datos de la secuencia del exoma identifica mutaciones pigv en el síndrome de retraso mental por hiperfosfatasia. Nat. Gineta. 42, 827–829 (2010).

Scott, L. J. et al. Un estudio de asociación de todo el genoma de la diabetes tipo 2 en finlandeses detecta múltiples variantes de susceptibilidad. Ciencias 316, 1341–1345 (2007).

Consorcio, W. T. C. C. et al. Estudio de asociación de todo el genoma de 14.000 casos de siete enfermedades comunes y 3.000 controles compartidos. Naturaleza 447, 661 (2007).

Marchini, J. & amp Howie, B. imputación de genotipo para estudios de asociación de genoma completo. Nat. Rev. Genet. 11, 499–511 (2010).

Tarpine, R., Lam, F. & amp Istrail, S. Extensiones conservadoras de medidas de desequilibrio de ligamiento de pares a múltiples loci y algoritmos para la selección óptima de snp de etiquetado. En Congreso Internacional de Investigación en Biología Molecular Computacional, 468–482 (Springer, 2011).

Cirulli, E. T. & amp Goldstein, D. B. Descubriendo los roles de variantes raras en enfermedades comunes a través de la secuenciación del genoma completo. Nat. Rev. Genet. 11, 415–425 (2010).

Ng, S. B. et al. La secuenciación del exoma identifica la causa de un trastorno mendeliano. Nat. Gineta. 42, 30–35 (2010).

Zhou, B. et al. Análisis completo, integrado y por fases de todo el genoma de la línea celular codificadora primaria k562. Genome Res. 29, 472–484 (2019).

Adey, A. et al. El genoma resuelto por haplotipo y el epigenoma de la línea celular de cáncer aneuploide hela. Naturaleza 500, 207–211 (2013).

Zheng, C. et al. Reconstrucción probabilística de haplotipos multilocus en tetraploides cruzados. Genética 203, 119–131 (2016).

Abecasis, G. R., Cherny, S. S., Cookson, W. O. & amp Cardon, L. R. Merlin: análisis rápido de mapas genéticos densos utilizando árboles de flujo de genes dispersos. Nat. Gineta. 30, 97–101 (2002).

Browning, S. R. & amp Browning, B. L. Fase de haplotipos rápida y precisa e inferencia de datos faltantes para estudios de asociación de genoma completo mediante el uso de agrupación de haplotipos localizados. Soy. J. Hum. Gineta. 81, 1084–1097 (2007).

Delaneau, O., Marchini, J. y Zagury, J.-F. Un método de fases de complejidad lineal para miles de genomas. Nat. Métodos 9, 179–181 (2012).

Selvaraj, S., Dixon, J. R., Bansal, V. & amp Ren, B. Reconstrucción de haplotipos de genoma completo mediante ligadura de proximidad y secuenciación de escopeta. Nat. Biotechnol. 31, 1111 (2013).

Berger, E., Yorukoglu, D., Peng, J. & amp Berger, B. Haptree: un marco bayesiano novedoso para el polyplotyping de un solo individuo usando datos ngs. PLoS Comput. Biol. 10, e1003502 (2014).

Aguiar, D. & amp Istrail, S. Ensamblaje de haplotipos en genomas poliploides y tractos compartidos idénticos por descendencia. Bioinformática 29, i352 – i360 (2013).

Edge, P., Bafna, V. & amp Bansal, V. Hapcut2: ensamblaje de haplotipos robusto y preciso para diversas tecnologías de secuenciación. Genome Res. 27, 801–812 (2017).

Bansal, V. & amp Bafna, V. Hapcut: un algoritmo eficiente y preciso para el problema de ensamblaje de haplotipos. Bioinformática 24, i153 – i159 (2008).

Consorcio, G. P. et al. Una referencia mundial para la variación genética humana. Naturaleza 526, 68–74 (2015).

Li, H. & amp Durbin, R. Alineación de lectura corta rápida y precisa con transformación de ruedas de madriguera. Bioinformática 25, 1754–1760 (2009).

Cormen, T. H., Leiserson, C. E., Rivest, R. L. y Stein, C. Introducción a los algoritmos (Prensa del MIT, 2009).

Hartmanis, J. Computadoras e intratabilidad: una guía para la teoría de np-completitud (Michael R. Garey y David S. Johnson). Siam Rev. 24, 90 (1982).

Karger, D. R. Minicortes globales en rnc y otras ramificaciones de un algoritmo de minicorte simple. SODA 93, 21–30 (1993).

Browning, B. L., Zhou, Y. & amp Browning, S. R. Un genoma imputado de un centavo de paneles de referencia de próxima generación. Soy. J. Hum. Gineta. 103, 338–348 (2018).

Lozzio, C. B. & amp Lozzio, B. B. Línea celular de leucemia mielógena crónica humana con cromosoma Filadelfia positivo. Sangre 45, 321–21 (1975).

Andersson, B. S., Beran, M., Pathak, S., Goodacre, A. & amp Mccredie, K. B. Leucemia mieloide crónica positiva para Ph con conversión casi haploide in vivo y establecimiento de una línea celular en continuo crecimiento con patrón citogenético similar. Cancer Genet. Cytogenet. 24, 335–343 (1987).

Rao, S. S. et al. Un mapa en 3D del genoma humano con una resolución de kilobase revela los principios del bucle de cromatina. Celda 159, 1665–1680 (2014).

Murray, P. et al. Whatshap: ensamblaje de haplotipos ponderados para lecturas de secuenciación de generaciones futuras. J. Comput. Biol. 22, 498–509 (2015).


Discusión

El objetivo final del ensamblaje del genoma es representar fielmente cada cromosoma en el organismo de telómero a telómero. Para hacerlo, los métodos de ensamblaje deben tener en cuenta la divergencia de secuencia entre los cromosomas maternos y paternos homólogos para evitar haplotipos colapsados ​​y duplicaciones de secuencias falsas, que pueden dar como resultado representaciones incompletas o erróneas de la secuencia biológica subyacente 7,9,29. Los ensambladores de genomas de lectura larga como FALCON-Unzip identifican regiones heterocigotas de un genoma como burbujas en gráficos de ensamblaje y descomprimen esas burbujas aún más mediante la fase y el reensamblaje de lecturas utilizando variantes de un solo nucleótido (SNV) 16. Sin embargo, los ensambladores de lectura larga no pueden poner en fase contigs primarios completos. Para abordar esta limitación, diseñamos FALCON-Phase, que utiliza datos de Hi-C para extender los bloques de fase a las escalas contig y scaffold. Aquí, hemos demostrado que FALCON-Phase mejora la precisión de los ensamblajes del genoma diploide heterocigótico, sin la necesidad de datos de los padres, la población o Strand-seq.

FALCON-Phase, junto con el ensamblaje de lectura larga, es un método atractivo para generar genomas de referencia de alta calidad de muestras para las que los padres no están disponibles. Este enfoque debería ser útil para iniciativas genómicas a gran escala que obtienen muestras de diversos orígenes, incluidos vectores de enfermedades de invertebrados, plagas agrícolas o individuos capturados en la naturaleza amenazados o en peligro de extinción. El método utiliza dos tecnologías comunes en la generación de conjuntos genómicos muy contiguos: lecturas largas de PacBio y Hi-C. Si bien Hi-C se usa comúnmente para andamios 30,31, nuestro estudio encuentra que los datos similares de alta calidad también se pueden usar para la fase contig o andamio. La precisión de la fase aumenta con la calidad de los datos Hi-C, específicamente la proporción de contactos de largo alcance superior a 100 kb. Los requisitos de cobertura de Hi-C para la eliminación progresiva son similares a los del andamio, 100 M lecturas por Gb de tamaño del genoma y las recomendaciones de cobertura para las lecturas largas de PacBio tienen una cobertura de al menos 60 veces y para las lecturas de PacBio HiFi una cobertura de 30 veces. Una característica de FALCON-Phase es que también se puede aplicar a andamios para vincular regiones de andamios en fase. Por lo tanto, sugerimos el siguiente flujo de trabajo de ensamblaje del genoma: (1) ensamblaje de lectura larga parcialmente en fase, (2) FALCON-Phase en contigs y haplotigs primarios, (3) andamiaje con datos de Hi-C y (4) FALCON-Phase en andamios.

FALCON-Phase se basa en un ensamblaje diploide que se cura como un conjunto haploide de contig primarios más haplotigs alternativos que se asignan cada uno a un contig primario. La generación de un ensamblaje de alta calidad requiere la eliminación de contigs quiméricos que unen loci 22,31 no enlazados en el ensamblaje primario utilizando herramientas, como purge haplotigs 32 o purge_dups 33. Cualquier contig primario se trata como si fuera diploide y se duplicará en la salida del pseudohaplotipo. Los contig de regiones hemicigotas del genoma, como las regiones no pseudoautosómicas de los cromosomas sexuales y las secuencias mitocondriales (es decir, haploides), no pueden tener errores de cambio de fase y deben eliminarse antes de ejecutar FALCON-Phase o se duplicarán como un artefacto del método.

El algoritmo de fase en el núcleo de FALCON-Phase podría adaptarse para usar otros tipos de datos de contacto de largo alcance y ploidías superiores. La matriz de entrada es simplemente un recuento de contactos entre todos los pares de secuencias en un ensamblaje. En lugar de datos Hi-C, las secuencias BAC-end, las nubes de lectura / lecturas vinculadas o los mapas ópticos podrían transformarse en la entrada requerida para FALCON-Phase. Se eligió Hi-C sobre las otras tecnologías porque proporciona información de contacto de ultra rango (& gt1 Mb), que permite crear bloques de fase a escala cromosómica. De manera similar, las secuencias de entrada podrían consistir en bloques de fase generados mediante resecuenciación y llamada de variantes, o pseudohaplotipos generados a partir de ensamblajes de lecturas PacBio HiFi o lecturas Oxford Nanopore (consulte la Tabla complementaria 3 donde aplicamos el método a un ensamblaje PacBio HiFi de HG002) . El enfoque simple de la llamada de variantes de faldón reduce el número de pasos y el tiempo de ejecución general de los ensamblajes pseudo-diploides en fase. Hay pasos de acabado adicionales antes de que el ensamblaje esté listo para la anotación del genoma, por ejemplo, el llenado de espacios con una herramienta como PB Jelly 34. Por estas razones, creemos que FALCON-Phase será una importante contribución algorítmica al objetivo de ensamblajes de genomas diploides de alta calidad.


Haplotipos en fase - Biología

La asignación de alelos a haplotipos para casi todas las variantes en todos los cromosomas se puede realizar mediante análisis genético de una familia nuclear con tres o más hijos. Los datos de la secuencia del genoma completo permiten la fase determinista de casi todos los alelos secuenciados al permitir la asignación de recombinaciones a posiciones cromosómicas precisas y meiosis específicas. Demostramos este proceso de eliminación genética en dos familias, cada una con cuatro hijos. Generamos haplotipos para todos los niños y sus padres, estos haplotipos abarcan todas las posiciones genotipadas, incluidas las variantes raras. Las asignaciones incorrectas de fase entre variantes (errores de conmutación) están casi ausentes. Nuestro algoritmo también puede producir haplotipos multimegabase para familias nucleares con solo dos hijos y puede manejar familias con personas desaparecidas. Implementamos nuestro algoritmo en un conjunto de scripts de software (Haploscribe). Los haplotipos y las secuencias del genoma familiar serán cada vez más importantes para la medicina personalizada y para la biología fundamental.


Haplotipos cromosómicos por fase genética de familias humanas

La asignación de alelos a haplotipos para casi todas las variantes en todos los cromosomas se puede realizar mediante análisis genético de una familia nuclear con tres o más hijos. Whole-genome sequence data enable deterministic phasing of nearly all sequenced alleles by permitting assignment of recombinations to precise chromosomal positions and specific meioses. We demonstrate this process of genetic phasing on two families each with four children. We generate haplotypes for all of the children and their parents these haplotypes span all genotyped positions, including rare variants. Misassignments of phase between variants (switch errors) are nearly absent. Our algorithm can also produce multimegabase haplotypes for nuclear families with just two children and can handle families with missing individuals. We implement our algorithm in a suite of software scripts (Haploscribe). Haplotypes and family genome sequences will become increasingly important for personalized medicine and for fundamental biology.

  • Roach, J.C., Glusman, G., Hubley, R., Montsaroff, S.Z., Holloway, A.K., Mauldin, D.E., Srivastava, D., Garg, V., Pollard, K.S., Galas, D.J. and Hood, L. (2011). Chromosomal Haplotypes by Genetic Phasing of Human Families. The American Journal of Human Genetics, 89(3), 382-397.

Phasing for medical sequencing using rare variants and large haplotype reference panels

Motivation: There is growing recognition that estimating haplotypes from high coverage sequencing of single samples in clinical settings is an important problem. At the same time very large datasets consisting of tens and hundreds of thousands of high-coverage sequenced samples will soon be available. We describe a method that takes advantage of these huge human genetic variation resources and rare variant sharing patterns to estimate haplotypes on single sequenced samples. Sharing rare variants between two individuals is more likely to arise from a recent common ancestor and, hence, also more likely to indicate similar shared haplotypes over a substantial flanking region of sequence.

Resultados: Our method exploits this idea to select a small set of highly informative copying states within a Hidden Markov Model (HMM) phasing algorithm. Using rare variants in this way allows us to avoid iterative MCMC methods to infer haplotypes. Compared to other approaches that do not explicitly use rare variants we obtain significant gains in phasing accuracy, less variation over phasing runs and improvements in speed. For example, using a reference panel of 7420 haplotypes from the UK10K project, we are able to reduce switch error rates by up to 50% when phasing samples sequenced at high-coverage. In addition, a single step rephasing of the UK10K panel, using rare variant information, has a downstream impact on phasing performance. These results represent a proof of concept that rare variant sharing patterns can be utilized to phase large high-coverage sequencing studies such as the 100 000 Genomes Project dataset.

Availability and implementation: A webserver that includes an implementation of this new method and allows phasing of high-coverage clinical samples is available at https://phasingserver.stats.ox.ac.uk/

Contacto: [email protected]

Supplementary information: Supplementary data are available at Bioinformatics online.

© The Author 2016. Published by Oxford University Press.

Cifras

Example of copying state selection.…

Example of copying state selection. A reference panel of 80 haplotypes in a…

Comparison of switch error rates…

Comparison of switch error rates for trio parents. The box-plot compares the empirical…

Properties of using rare variants…

Properties of using rare variants for state selection. ( a ) Effect on…


Ver el vídeo: Filogeografía 1 (Enero 2022).