Herramienta de pesos de importancia
La herramienta peso de importancia proporciona métodos para seleccionar un conjunto de variables que se usarán en un modelo predictivo basado en la forma en que se relaciona fuertemente cada predictor posible con la variable de destino de un modelo que se va a crear.
El conjunto final seleccionado se puede basar en la toma de los predictors N más fuertemente relacionados con el objetivo, o mediante la selección de un nivel de peso de corte de importancia, y sólo las variables que exceden el punto de corte se incluyen en un modelo.
En desventaja a este enfoque es que sólo se ve la fuerza de un posible predictor sobre el objetivo en el aislamiento, ignorando los posibles efectos de interacción y la correlación entre los predictores. A pesar de esta limitación, este tipo de método de filtrado variable se utiliza con frecuencia en la práctica.
Hay una serie de medidas de pesos de importancia diferentes, y la aplicabilidad de un método particular depende típicamente del tipo de objetivo y del predictor (numérico o categórico). Una desventaja de esta situación es que las medidas utilizadas para determinar la importancia relativa de los diferentes predictores posibles serán diferentes para las variables numéricas y categóricas. La excepción es el método de alivio, pero su rendimiento no es tan robusto como otros métodos específicos de un tipo de destino concreto y una combinación de tipo predictor.
La mayoría de las medidas son proporcionadas por el paquete de FSelector R. Este paquete hace uso de algunos métodos escritos en Java, así que para utilizar esta macro, usted necesitará tener un entorno de tiempo de ejecución de Java 7 en el equipo donde Alteryx está instalado.
Herramienta Galería
Esta herramienta no se instala automáticamente con Alteryx Designer o las herramientas R. Para utilizar esta herramienta, descárgala de Alteryx Analytics Gallery.
Conectar una entrada
Una secuencia de datos Alteryx que contiene la variable de destino deseada y un conjunto de variables predictoras potenciales que se usarán para estimar un modelo predictivo.
Configurar la herramienta
- Objetivo continuo: Seleccione esta opción si la variable de destino que desea predecir es una variable numérica. Al seleccionar esta opción, se le pedirá que seleccione el campo de la variable de destino de los datos y si desea examinar qué posibilidades continuas (numéricas) o categóricas (variables de cadena con etiquetas de categoría) desea considerar. Una vez que haya realizado esta selección, deberá seleccionar el conjunto de predictores (del tipo seleccionado) que desee examinar y una o más medidas de comparación. Para el objetivo continuo y los predictores continuos las medidas disponibles son:
- Correlación de Pearson
- Correlación de Spearman (orden de rangos)
- Relieve, que proporciona el algoritmo RRELIEFF. El uso puede seleccionar el número de vecinos cercanos (conteo delvecino) y el tamaño de muestra (tamaño de muestra) utilizado para calcular la medida RRELIEFF.
- Correlación media condicional (Pearson). Esta medida se basa en el cálculo del nivel medio de la variable de destino para cada nivel (categoría) de las variables categóricas y, a continuación, el cálculo de la correlación de Pearson entre los valores reales y los valores media
- Relieve, que utiliza el algoritmo RRELIEFF. El uso puede seleccionar el número de vecinos cercanos (conteo delvecino) y el tamaño de muestra (tamaño de muestra) utilizado para calcular la medida RRELIEFF.
- Objetivo categórico: Seleccione esta opción si la variable de destino que desea predecir es una variable categórica. Al seleccionar esta opción, se le pedirá que seleccione el campo de la variable de destino de los datos y si desea examinar qué posibilidades continuas (numéricas) o categóricas (variables de cadena con etiquetas de categoría) desea considerar. Una vez que haya realizado esta selección, deberá seleccionar el conjunto de predictores (del tipo seleccionado) que desee examinar y una o más medidas de comparación. Para el objetivo continuo y los predictores continuos las medidas disponibles son:
- Ganancia de información de entropía
- Cociente del aumento de la entropía
- Incertidumbre simétrica de la entropía
- Relieve, que utiliza el algoritmo RRELIEFF. El uso puede seleccionar el número de vecinos cercanos (conteo delvecino) y el tamaño de muestra (tamaño de muestra) utilizado para calcular la medida RRELIEFF.
- V de Cramer (Chi-cuadrado)
- Relieve, que utiliza el algoritmo RRELIEFF. El uso puede seleccionar el número de vecinos cercanos (conteo delvecino) y el tamaño de muestra (tamaño de muestra) utilizado para calcular la medida RRELIEFF.
Las medidas de peso disponibles para un objetivo continuo y predictores categóricos son:
Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.
La importancia disponible medidas de peso disponibles para un objetivo categórico y predictores categóricos son:
Ver la salida
- D ancla: consiste en una tabla que proporciona el valor de peso de importancia seleccionado para cada predictor potencial.
- R Anchor: consiste en fragmentos de informe que indican el campo de destino (y su tipo) y el tipo de los campos predictores potenciales junto con la tabla del valor de peso de importancia seleccionado para cada predictor potencial.