¿Cuáles son algunos buenos documentos introductorios sobre GWAS?

GWAS son las siglas de Genome-Wide Association Study. Es un paradigma de investigación con el objetivo de comprender cómo las variantes genéticas están asociadas con el fenotipo (rasgos observables) en un nivel de todo el genoma. En un entorno normal, los investigadores recolectan genomas de un grupo objetivo con un rasgo observable (como una enfermedad genética) y genomas de un grupo de control sin ese rasgo. Los investigadores aplican técnicas estadísticas / algoritmos de aprendizaje automático para identificar las variantes genéticas asociadas con el rasgo objetivo. La siguiente figura se utiliza para resumir los conceptos anteriores.

Desde el punto de vista de la informática, una secuencia de ADN es una cadena compuesta de 4 alfabetos (A, C, G, T). Llamamos a estos alfabetos como nucleótidos. Un ejemplo de una cadena de ADN es “ACGTTA”. Un genoma puede considerarse como una secuencia de ADN muy larga compuesta por aproximadamente 3 mil millones de nucleótidos. En términos de variantes genéticas, el tipo más simple se llama polimorfismo de nucleótido único (SNP). Significa una variante (o un polimorfismo) en una posición (locus) cuando estudiamos múltiples secuencias de ADN (a menudo con la alineación adecuada) juntas. Se proporciona un ejemplo en la figura a continuación.

Vemos que en la figura anterior, hay un polimorfismo en el locus X. Llamamos a esta posición un SNP. Aquí, un término genético “Alelo” significa el conjunto de nucleótidos que se refieren al Locus X, es decir, Alelo en SNP-I = {“G”, “T”}. Como “G” es el más frecuente y “T” es el menos frecuente, “G” se llama alelo mayor y “T” se llama alelo menor.

Nuestro genoma (como una larga cadena de secuencias de ADN) se almacena por separado en pares de cromosomas. Cada par es exactamente el mismo, excepto el cromosoma sexual. Desde el punto de vista de la informática, si queremos leer un nucleótido de un locus particular, obtendremos dos nucleótidos, uno de cada cromosoma. Al denotar el alelo principal como la letra mayúscula “A”, y todos los demás alelos menores (normalmente uno) como letras minúsculas “a” para un locus particular, si hay variantes, tendremos los siguientes tres casos. El primero es el genoma de referencia homocigoto (AA). En este caso, no se observan variantes. El segundo es el genotipo heterocigoto (Aa). En este caso, se observa una variante. El tercero es el genotipo de la variante homocigota (aa). En este caso, se observan dos variantes.

Con esta configuración, podemos modelar GWAS como la siguiente entrada y salida.

Primero, nuestra entrada son muestras M, donde algunas de ellas son muestras de “caso” (es decir, con el rasgo objetivo), y el resto de ellas son muestras de “control” (es decir, sin el rasgo objetivo), con la codificación “Caso” – > 1 y “Control” -> 0. Para cada muestra, tenemos N SNP, con la codificación “AA” -> 0, “Aa” -> 1, “aa” -> 2. nuestra salida son los SNP asociados con enfermedades, o simplemente, qué SNP en la entrada pueden usarse para predecir la variable de clase. Cabe señalar que la combinación de SNP puede ser de alto orden. Ahora puede aplicar técnicas de aprendizaje automático para abordar el problema.

Documentos introductorios sobre GWAS:
[1] Como científico de la computación, primero recomiendo el siguiente artículo para comenzar a comprender cómo se aplica el aprendizaje automático en GWAS.
Desafíos bioinformáticos para estudios de asociación de genoma completo

[2] También puedes leer mi trabajo en GWAS usando la Programación Genética.
GP-Pi: Uso de programación genética con penalización e inicialización en estudio de asociación de genoma completo

También puede leer sus diapositivas de resumen:
https: //antonioszeto.files.wordp…

  • Un tutorial sobre métodos estadísticos para estudios de asociación poblacional.
  • Estudios de asociación de todo el genoma y más allá.
  • Cómo interpretar un estudio de asociación de genoma completo

Esto fue bastante esclarecedor cuando comencé a hacer GWAS

La atrofia del hipocampo como un rasgo cuantitativo en un estudio de asociación de genoma completo que identifica genes de susceptibilidad novedosos para la enfermedad de Alzheimer