SelecVar, nueva herramienta para seleccionar variables

Una nueva herramienta en la lista, SelecVar

Muchos usuarios de las herramientas CAPFITOGEN, en particular de la herramienta ELC mapas, suelen preguntar cómo seleccionar las 2-5 variables que se utilizarán por componente (bioclimático, geofísico y edáfico) para generar el mapa ELC (Ecogeographic Land Characterization). La repsuesta nunca es sencilla, y suelo recomendar dos procesos:

1. Selección subjetiva: Con la ayuda de expertos en la especie objetivo, se seleccionan algunas variables que se consideren asociadas a las características adaptativas más importantes. A los expertos se les consulta una lista amplia de variables y ellos seleccionan entre 3 a 10 variables por componente. El resto de variables se descartan.

2. Selección objetiva: Mediante análisis estadísticos se suele determinar qué variables no aportan mayor información en la detección de patrones adaptativos en la especie objetivo.  Éstas variables son excluidas del listado final de variables a usar para obtener el mapa ELC.

Para el caso de la tecnología CAPFITOGEN, lo mas recomendable es usar los dos procesos consecutivamente, de tal manera que el proceso subjetivo elimina una gran cantidad de variables de las 103 o 105 disponibles (dependiendo si latitud y longitud se consideran fijas), y luego del grupo reducido se hace una selección final mediante un proceso objetivo. La idea es retener entre 2 a 5 o 6 variables por componente, y usarlas para la elaboración del mapa ELC (herramienta ELC mapas). Sin embargo el orden contrario es posible mientras que el ordenador/computador sea capaz de realizar el análisis estadístico del proceso de selección objetiva en un conjunto de variables muy numeroso.

En este contexto nace la nueva herramienta SelecVar. Con ella es posible realizar la selección objetiva de variables mediante tres análisis estadísticos:

1. El análisis clustvarsel: realiza una selección de variables mediante un análisis de agrupamientos basado en modelamiento. Este proceso intenta crear grupos (en nuestro caso de adaptación ambiental) y clustvarsel determina mediante criterios bayesianos (BIC) cuales variables son relevantes en este proceso de agrupamiento. La base del funcionamiento de clustvarsel se encuentra aquí.

2. Correlaciones bivariadas: Obtención de matrices diagonales que muestran los estimados de correlación entre todas las variables probadas, los valores p (significancia) y los intervalos de confianza. Adicionalmente se obtiene una matriz donde sólo aparecen los estimados mayores de 0.5 o menores de -0.5 (valores de alta correlación) y con valores de p menores o iguales a 0.05 (correlaciones significativas).

3. Análisis de componentes principales (PCA): A diferencia del análisis PCA que realiza la herramienta ECOGEO, SelecVar realiza análisis de componentes principales para cada uno de los componentes (bioclimático, geofísico y edáfico por separado).

El usuario puede usar los resultados de clustvarsel como base de la selección objetiva y eliminar o añadir variables en base a su correlación o importancia en los componentes principales que más varianza expliquen.

Deje un comentario

Su email no será publicado.


*


*

English