Capítulo 4 Distancias entre sitios
Como hemos visto hasta ahora, cuando tenemos dos comunidades muy parecidas entre sí tendremos valores altos de similitud. En contraposición los índices de distancia nos mostrarán valores altos cuando dos comunidades se parezcan poco. Como habíamos mencionado anteriormente existen dos tipos de medidas de distancia;
aquellas calculadas a partir de los índices de similitud usualmente como D= 1-Similitud. Así, para los índices de incidencia (presencia - ausencia) se pueden usar los índices de Jacard, Simpson o Sorensen, mientras que para los índices cuantitativos se puede usar el porcentaje de similitud, este último conocido como distancia de Bray Curtis.
aquellas que no tienen medidas de similitud análogas, algunos de estos índices son; Euclidiana, Chord, Hellinger.
La distancia entre dos muestras está dada por la diferencia entre la abundancia y la composición de especies. En la figura 3.1 se observa que la comunidad A esta más alejada de la comunidad D que de las otras dos.
4.1 Distancia Euclidiana
Existen muchas formas de poder calcular las distancias entre estas comunidades una de las más sencillas es la distancia Euclidiana. La distancia euclidiana entre dos sitios es simplemente la longitud del vector que conecta los sitios y la podemos obtener como \(\sqrt{x^2+y^2}\), donde “x” y “y” son las coordenadas (x, y) de distancia entre un par de sitios.
En nuestro caso si queremos comparar B y C tenemos que la distancia en el eje x es la diferencia de la abundancia de T. bilbergii entre el sitio B y C.
<- dens[2, 1] - dens[3, 1] x
Mientras que la distancia en el eje y es la diferencia en la abundancia de G. spinosa entre el sitio B y C.
<- dens[2, 2] - dens[3, 2] y
Ahora obtenemos las distancias entre los dos sitios
sqrt(x^2 + y^2)
## [1] 5.09902
Pero como en R todo es sencillo podemos utilizar la función dist
dist(dens[,1:2])
## A B C
## B 13.000000
## C 8.062258 5.099020
## D 16.124515 3.605551 8.062258
Si bien este cálculo es sencillo con dos especies, si tenemos que calcular la distancia para una comunidad con más de tres especies los cálculos son tediosos y largos. Para calcular la distancia Euclidiana entre pares de sitios con R especies utilizamos la siguiente ecuación:
\[D_E = \sqrt{\sum_{i=l}^R (x_{ai} - x_{bi})^2}\] Distancia Euclidiana
4.1.1 Efecto de doble-ceros y abundancia
Aunque la distancia Euclidiana es fácilmente interpretable, se usa poco en análisis biológicos. Normalmente los datos de comunidad están caracterizados por una gran cantidad de ceros (especies no encontradas en determinados sitios), el cálculo de la distancia Euclidiana incrementa la similitud entre comunidades que presentan ceros para la misma especie.
spp1 | spp2 | spp3 | sp4 | spp5 | spp6 | |
---|---|---|---|---|---|---|
A | 1 | 1 | 0 | 0 | 0 | 0 |
B | 0 | 1 | 1 | 1 | 1 | 0 |
C | 0 | 0 | 0 | 0 | 1 | 1 |
Según los datos mostrados en la tabla tendríamos que hay un gradiente, la comunidad A comparte una especie con la comunidad B y la comunidad B comparte una especie con la comunidad C. Los índices deberían permitir recuperar ese gradiente, veamos lo que pasa.
library(vegan)
## Loading required package: permute
## Loading required package: lattice
## This is vegan 2.5-7
vegdist(dcMat, "euclidean")
## A B
## B 2
## C 2 2
Como vemos en el ejemplo, el doble cero de la comunidad A y C generan una mayor similitud, de esta forma, las tres comunidades son mostradas a igual distancia.
Esto no debería ser un problema si el cero nos diese información consistente. En el caso de datos biológicos, el tener un valor de cero puede deberse a varias razones, por ejemplo puede ser que aunque la especie ocurre en ese lugar no pudo ser muestreada, o realmente no ocurre en ese lugar por restricciones abióticas, de esta forma el cero no es informativo y no podemos usarlo para generar matrices de distancias. En otros casos, normalmente en datos abióticos, el cero implica la ausencia de algo, por ejemplo tener cero mg de un contaminante es una información. De esta forma la distancia Euclidiana es usada sobre todo para interpretar datos ambientales.
4.1.2 Efecto de la abundancia
Otra característica importante de la distancia euclidiana es que está fuertemente impactada por la diferencia de abundancias entre especies. El cálculo de esta distancia eleva al cuadrado las abundancias, por lo que el impacto de las especies dominantes es desproporcionado. En otras palabras la distancia euclideana incrementa el efecto de las especies dominantes. Veamos a qué nos referimos en el siguiente ejemplo.
<- data.frame(spp1=c(0,1,0),spp2=c(1,0,8),
dcMat2 spp3=c(1,0,7))
rownames(dcMat2) <- LETTERS[1:3]
kable(dcMat2, caption = "Efecto de la abundancia")
spp1 | spp2 | spp3 | |
---|---|---|---|
A | 0 | 1 | 1 |
B | 1 | 0 | 0 |
C | 0 | 8 | 7 |
vegdist(dcMat2, "euclidean")
## A B
## B 1.732051
## C 9.219544 10.677078
Como vemos la distancia de la comunidad A a la C es de 9.21, aunque comparten dos especies, la diferencia en abundancias entre estas dos comunidades es muy marcada generando un incremento en la distancia. Por otro lado, la comunidad A tiene una distancia de 1.73 a la comunidad B, esta menor distancia se da aunque no comparten ninguna especie. Como vemos el efecto en la diferencia de abundancias tiene un fuerte impacto sobre el cálculo de distancias.
4.2 Distancia Bray-Curtis
Existen otras formas de medir distancias entre dos localidades. En ecología una de las distancias más utilizada es la de Bray-Curtis, esta distancia es el opuesto del porcentaje de similitud. Esta distancia es calculada como:
\[D_{BC} = \sum_{i=l}^R \frac{(x_{ai} - x_{bi})}{(x_{ai} + x_{bi})}\] Distancia de Bray-Curtis
La distancia Bray-Curtis se refiere a la diferencia total en la abundancia de especies entre dos sitios, dividido para la abundancia total en cada sitio. La distancia Bray-Curtis tiende a resultar más intuitiva debido a que las especies comunes y raras tienen pesos relativamente similares, mientras que la distancia euclidiana depende en mayor medida de las especies más abundantes. Esto sucede porque las distancias euclidianas se basan en diferencias al cuadrado, mientras que Bray-Curtis utiliza diferencias absolutas. El elevar un número al cuadrado siempre amplifica la importancia de los valores más grandes. En la figura 4.1 se compara gráficos basados en distancias euclidianas y Bray-Curtis de los mismos datos.
Como se había comentado, es virtualmente imposible representar una distancia en más de tres dimensiones (cada especie es una dimensión). Una forma sencilla de mostrar distancias para tres o más especies es crear un gráfico de dos dimensiones, intentando organizar todos los sitios para que las distancias sean aproximadamente las correctas. Está claro que esto es una aproximación, las distancias nunca serán exactas. Una técnica que intenta crear un arreglo aproximado es escalamiento multidimensional no métrico (NMDS).
La función de escalamiento multidimensional no-métrico está en el paquete vegan
. Aquí mostramos las distancias euclidianas entre sitios (Figura 4.1a) y las distancias de Bray-Curtis (Figura 4.1b).
library(vegan)
#Distancia Euclidiana
<- metaMDS(dcMat, distance = "euc", autotransform = FALSE, trace = 0)
mdsE #Distancia de Bray-Curtis
<- metaMDS(dcMat, distance = "bray", autotransform = FALSE, trace = 0) mdsB
par(mfcol=c(1,2), oma=c(1,1,1,1), mar=c(4,4,1,1),
mgp=c(1,0.3,0), tcl= -0.2)
plot(mdsE, display = "sites",
type = "text",main="a)Euclidiana",
cex.axis= 0.7, cex.main=0.75, cex.lab=0.7)
plot(mdsB, display = "sites", type = "text",
main="b)Bray-Curtis",
cex.axis= 0.7, cex.main=0.75, cex.lab=0.7)
Como podemos apreciar en el caso del ejemplo, la distancia de Bray-Curtis recupera la idea de un gradiente entre las comunidades, desde la comunidad A a la C. En el caso de la distancia Euclidiana las comunidades B y C se encuentran a igual distancia de la comunidad A, como un efecto del doble cero.