Datos de Ocurrencias y Ausencias


  1. Puntos de ocurrencia. Los datos que se deben de usar son los datos primarios. Los datos secundarios (por ejemplo, provenientes de Atlas) no deben ser utilizados en ENM/SDM ya que incluyen en general errores e imprecisiones muy dificiles de corregir. 
    1.  Control de calidad de los datos de ocurrencia. 
      1. La nomenclatura debe ser consistente respecto a un concepto taxonomico, y debe de existir una razonable certidumbre sobre las identificaciones de los ejemplares. Lo anterior implica la participacion de una autoridad en la taxonomía del grupo en cuestion.
      2. La georeferenciacion de los puntos debe hacerse de acuerdo a un sistema internacional estandarizado (Wieczorek et al. 2004). La CONABIO tiene un manual de georeferenciacion y el proyecto MANIS tiene otro, llamado biogeomancer. Se puede usar cualquiera de los dos como referencia de practicas estandarizadas de georeferenciacion.  
      3. La resolucion de las georeferencias (su radio de incertidumbre) se debe de filtrar para retener solo los registros que cumplan un nivel de precision adecuado al problema y y razonablemente coincidentes con la resolucion de los datos ambientales (por ejemplo, hay datos provenientes de Atlas con resoluciones de 50 o 100 km de lado, que no deben jamas usarse con datos climaticos de 1 km de resolucion).
    2. Numero de datos de ocurrencia. Para poder desarrollar modelos que incluyan el paso critico de evaluacion, se debe contar con un minimo aproximado de 40 puntos. Sacrificando el paso de evaluacion, la experiencia indica que aproximadamente 20 puntos son suficientes. Es posible utilizar muchos menos puntos, siempre y cuando el investigador tenga experiencia en visualizar el espacio de variables ambientales y en aplicar metodos exploratorios al modelar. Se recomienda evitar modelar con menos de 10 puntos y de hacerlo se debe reportar el detalle del metodo usado (Wisz et al. 2007). Utilizar muchos cientos de datos en la fase de modelacion es desaconsejable. La experiencia indica que mas de alrededor de 200 puntos puede conducir a modelos "sobreajustados".
    3. Datos de no-presencia. Hay tres clases principales de datos de no-presencia: ausencias estrictas, pseudoausencias, y transfondo (background). 
      1. Los datos de ausencias estrictas, o "true absences" son las observaciones confiables (generalmente derivadas de un inventario de campo) sobre la no presencia de una especie en un sitio. Estos datos permiten el uso de modelos de regresión para estimar directamente Go. Lo mas frecuente es que estos datos no estén disponibles, y su interpretacion no es inmediata, ya que no es igual "ausencia del area potencial", que "ausencia del area ocupada". Carecer de ausencias estrictas impide calcular directamente Go. Cuando se cuenta unicamente con  datos de presencias, estimar Go requiere de datos auxiliares o supuestos bastante fuertes sobre la presencia de "ambientes tipicos" [Phillips & Dudik] o de "ambientes optimos" [Luo, 2011].
      2. Los datos de pseudoausencias se refieren a datos generados de manera ad hoc para simular ausencias. Por ejemplo tomando una muestra al azar de puntos en el área de distribución, como hace GARP, o especificando una región conocida o hipotetizada como desfavorable para la especie. Las pseudoausencias deben ser utilizadas con mucho cuidado, ya que su significado es muy distinto cuando se trata de una especie con Go muy restringida respecto a G, en cuyo caso la mayor parte de una muestra de puntos al azar caerán fuera de Go, o cuando se trata de una especie con una Go cercana a G, en cuyo caso una muestra al azar de puntos en G caerán dentro de Go, convirtiendo a las pseudoausencias básicamente en ruido. Cuando se utilizan pseudoausencias en modelos de tipo regresion, la interpretacion de los resultados debe tomar en cuenta este hecho [Pearce, Phillips, Wade]
      3. Los datos de "trasfondo" (background en Ingles). Son muestras tomadas de el area de referencia G completa. Maxent los utiliza  para calcular la Entropia Relativa Minima (Elith & Phillips, 2011). Los datos de transfondo, que en Maxent se usan para generar una hipotesis nula, y los datos de pseudoausencias, que en regresion se usan como substitutos de ceros, son conceptualmente totalmente distintos, y no se deben confundir.

  1. Fuentes de datos de ocurrencias.  Algunas fuentes de datos primarios muy importantes estan abajo. Es indispensable consultar o revisar por expertos los datos primarios.
    1. CONABIO (REMIB). Datos provenientes de 125 colecciones o proyectos. Son principalmente provenientes del territorio Mexicano. Hay datos de una amplia diversidad de taxa. Amplia proporcion georeferenciados usando protocolos internacionales. Una parte importante ha sido revisada taxonomicamente.
    2. Unidad Informatica para la Biodiversidad, Instituto de Biologia, UNAM UNIBIO. Datos provenientes de las colecciones nacionales de la UNAM. Existe una significativa superposicion con CONABIO, pero hay muchas colecciones solamente representadas aqui. La georeferencia y la taxonomia estan controladas.
    3. Global Biodiversity Information Facility (GBIF). Los datos (mas de 300 millones de puntos) provienen de mas de 12,700 fuentes. Proveniencia global. Es la fuente mas grande del mundo de este tipo de datos. La georeferencia es heterogenea, no necesariamente sobre la base de protocolos estandard, y muchas veces equivocada. La taxonomia es heterogenea y no controlada.
    4. VertNet Incluye las redes Norteamericanas MaNIS, ORNIS, HerpNet y FishNet. La taxonomia no esta controlada. La georeferencia ha seguido protocolos internacionales.
    5. SpeciesLink Incluye datos de unas 250 colecciones. Datos principalmente de Brasil y Sudamerica, ocasionalmente con especies de distribucion hasta Mexico. La georeferencia esta bien documentada, aunque muchas veces no esta presentada a coordenadas. La taxonomia no esta controlada.
    6. SEINet. Datos de 27 colecciones sobre plantas del Suroeste de los Estados Unidos. Contienen muchos datos botanicos mexicanos.  La georeferencia y la taxonomia en general han sido revisadas por expertos.
    7. INBio Contiene datos de muchas especies que existen en Mexico. La georeferencia es en general de buena calidad, pero no documentada. La taxonomia esta controlada en muchos grupos.
    8. Ocean Biogeographic Information System OBIS 
    9. Australia's Virtual Herbarium AVH. Contiene informacion sobre muchas especies invasoras en Mexico. Tanto la georeferencia como la taxonomia estan controladas.
    10. Existen inumerables fuentes de datos primarios en colecciones no digitalizadas y los datos propios de los investigadores. Vease la seccion de control de calidad de los datos.