¿Cuál es la forma más fácil de definir la distancia UniFrac?

Las posibilidades de que vea esta publicación en este momento … Literalmente he estado leyendo sobre / implementando UniFrac toda la semana pasada jajaja. Este es el mejor tutorial que encontré a continuación. Sin dar crédito a ninguna de estas explicaciones, literalmente copio y pego del cuaderno a continuación. Yo uso `skbio` para calcular mis matrices de distancia unifrac:

skbio.diversity.beta.unweighted_unifrac – documentación de scikit-bio 0.5.0

http://readiab.org/book/latest/3…

3.1.4.1.2 UniFrac no ponderado [editar]

Así como las métricas de diversidad alfa filogenética pueden ser más informativas que las métricas de diversidad alfa no filogenética, las métricas de diversidad beta filogenética ofrecen ventajas sobre las métricas no filogenéticas como Bray-Curtis. La métrica de diversidad beta filogenética más ampliamente aplicada a partir de este escrito es UniFrac no ponderada. UniFrac se presentó inicialmente en Lozupone y Knight, 2005, Microbiología Aplicada y Ambiental, y desde entonces se ha aplicado ampliamente en ecología microbiana (y la ilustración del cálculo de UniFrac presentada a continuación se deriva de un ejemplo similar desarrollado originalmente por Lozupone y Knight).

La distancia no ponderada de UniFrac entre un par de muestras A y B se define de la siguiente manera:

UAB = uniqueobserved [matemática] UAB = uniqueobserved [/ matemática]

dónde:

unique [math] unique [/ math]: la longitud de rama única, o longitud de rama que solo conduce a OTU (s) observadas en la muestra

A [matemáticas] A [/ matemáticas] o muestra

B [matemáticas] B [/ matemáticas]

observado [matemáticas] observado [/ matemáticas]: la longitud total de la rama observada en cualquiera de las muestras

A [matemáticas] A [/ matemáticas] o muestra

B [matemáticas] B [/ matemáticas]

Para ilustrar cómo se calculan las distancias de UniFrac, antes de comenzar a calcularlas, veamos algunos ejemplos. En estos ejemplos, imagine que estamos determinando la distancia UniFrac por pares entre dos muestras: una muestra roja y una muestra azul. Si aparece un cuadro rojo junto a una OTU, eso indica que se observa en la muestra roja; si aparece un cuadro azul junto a la OTU, eso indica que se observa en la muestra azul; si aparece un cuadro rojo y azul al lado de la OTU, eso indica que la OTU está presente en ambas muestras; y si no se presenta ningún cuadro junto a la OTU, eso indica que no está presente en ninguna de las muestras.

Para calcular la distancia UniFrac entre un par de muestras, necesitamos saber la suma de la longitud de la rama que se observó en cualquiera de las muestras (la longitud de la rama observada ) y la suma de la longitud de la rama que se observó solo en una sola muestra ( La longitud única de la rama). En estos ejemplos, coloreamos toda la longitud de rama observada . La longitud de la rama que es única para la muestra roja es roja, la longitud de la rama que es única para la muestra azul es azul, y la longitud de la rama que se observa en ambas muestras es púrpura. La longitud de la rama no observada es negra (al igual que las ramas verticales, ya que no contribuyen a la longitud de la rama, son solo para presentación visual).

En el árbol de la derecha, todas las OTU que se observan en cualquiera de las muestras se observan en ambas muestras. Como resultado, toda la longitud de la rama observada es púrpura. La longitud única de la rama en este caso es cero, por lo que tenemos una distancia UniFrac de 0 entre las muestras rojas y azules .


En el otro extremo del espectro, en el segundo árbol, todas las OTU en el árbol se observan en la muestra roja o en la muestra azul. Toda la longitud de la rama observada en el árbol es roja o azul, lo que significa que si sigue una rama hasta las puntas, observará solo muestras rojas o azules. En este caso, la longitud de rama única es igual a la longitud de rama observada, por lo que tenemos una distancia UniFrac de 1 entre las muestras roja y azul .


Finalmente, la mayoría de las veces estamos en algún punto intermedio. En este árbol, parte de la longitud de nuestra rama es única y otra no. Por ejemplo, OTU 1 solo se observa en nuestra muestra roja, por lo que la rama terminal que conduce a OTU 1 es roja (es decir, exclusiva de la muestra roja). OTU 2 solo se observa en nuestra muestra azul, por lo que la rama terminal que conduce a OTU 2 es azul (es decir, exclusiva de la muestra azul). Sin embargo, la rama interna que conduce al nodo que conecta la OTU 1 y la OTU 2 conduce a las OTU observadas en las muestras rojas y azules (es decir, OTU 1 y OTU 2), por lo que es púrpura (es decir, longitud de la rama observada, pero no rama única). longitud). En este caso, tenemos una distancia intermedia de UniFrac entre las muestras rojas y azules, tal vez alrededor de 0.5 .