Metodos Estadisticos


Cuando la investigadora es tan afortunada (o aplicada) para contar con datos de ausencias estrictas (como los de la tabla a la derecha) , se pueden aplicar métodos de regression para estimar el Santo Grial, que es la probabilidad de presencia condicionada al ambiente: p(Y=1|z). Los datos de ausencias estrictas son series de 1 y 0 (asociadas a las coordenadas, lo cual permite obtener los parámetros ambientales). La modelación de este tipo de datos se conoce desde hace mucho tiempo, empezando con el método mas simple, que es el modelo lineal, pasando por el modelo logístico, los modelos lineales generalizados (GLIM), los modelos aditivos generalizados (GAM) y los árboles de regresión en sus diversas variantes. Una revisión reciente de estos métodos se encuentra en Franklin, 2009.

Primer punto importante: recordar que ausencias estrictas no es lo mismo que pseudoausencias, ni que “background”. Ausencias estrictas significa que alguien realizo un inventarios por el tiempo suficiente, y los métodos adecuados como para concluir que en una cierta localidad (con z ambiente) la especie esta ausente. O no existen poblaciones “fuente” detectables de dicha especie. Eso es un 0.

Segundo punto. Habiendo datos de ausencias estrictas se pueden ajustar varios modelos tipo regresión para acercarse al Santo Grial de la modelacion de nichos, que es la probabilidad de la presencia condicionada al ambiente (1) a la derecha:

Del cual sale de forma obvia la probabilidad de la ausencia, puesto que ambas suman 1.



El mas simple modelo para ajustar la probabilidad de presencia es modelo lineal (ecuación 2), que prácticamente nunca se usa, entre otras cosas, porque no esta acotado, y podría dar valores de probabildiad menores que cero o mayores que uno . El termino épsilon representa errores normalmente distribuidos con media cero y variancia 1.


Un modelo que resuelve el problema de acotar los valores de probabilidad, es el llamado “modelo logístico”, que aparece a la derecha (ecuación 3):


que se transforma de la siguiente forma:






En otras palabras, se ajusta un modelo lineal a la transformacion “logit” (el logaritmo de la razón de la probabilidad de presencia a la probabilidad de ausencia). El logit puede variar desde menos infinito a mas infinito, y la correspondiente probabilidad se mueve entre 0 y 1, como debe hacer toda probabilidad, tal y como se ilustra en la figura a la derecha:



El método mas deseable para ajustar este modelo es utilizando Generalized Linear Models (GLIMs), disponibles en una gran variedad de programas estadísticos, incluído R.

En el GLIM se ajusta la serie de unos y ceros como función de los datos ambientales utilizando el “link” logit, con una distribución de errores binomial.

En un GLIM, se presupone un modelo para los datos (el modelo logístico en el caso anterior). Cuando el énfasis del problema esta puesto en reproducir los datos de manera muy justa, sin preocuparse por la extrapolación, se pueden  utilizar métodos no paramétricos (que no suponen un modelo especifico). Uno de los mas populares es el llamado GAM (Generalized Additive Model). En un GAM se ajusta la siguiente combinación lineal (ecuación 4):

 

Las funciones f(zi) son ajustes de tipo “smoothers” a la vecindad de cada dato. Esto es, se interpola una función empirica descriptiva (polinomios de 2, 3 u superior orden) u otras, sin absolutamente ninguna pretensión teorica mas alla que la de reproducir de manera lo mas justa posible la estructura observada de los datos. Los GAMs suelen proporcionar ajustes muy buenos a datos existentes, y es posible (dependiendo del software usado) reproducirlos o transferirlos a conjuntos de datos nuevos, por ejemplo, fuera de la región donde se entrenaron los puntos, o con climas diferentes. Sin embargo estos métodos son extremadamente sensitivos a extrapolaciones. O sea, a transferir las predicciones a combinaciones ambientales fuera de las utilizadas para entrenar el modelo.


FCF

1) Sobreajustar, usando cientos de puntos, y luego tratar de transferir, "extrapolando" a geografías o tiempos distintos.

2) Interpretar erróneamente la salida, que es un estimado del nicho realizadol (en E) o del área ocupada (en G). 


  








.    .    .    (1)




.    .     .    (2)


 .   .    .    (3)





.    .    .    (4)