Skip to main content

Stepwise Tool Icon Herramienta Escalonado

Ejemplo de cada herramienta

La herramienta Escalonado tiene un ejemplo de uso. Consulta Flujos de trabajo de muestra para aprender cómo acceder a este y muchos otros ejemplos directamente en Alteryx Designer.

La herramienta Escalonado determina cuáles son las mejores variables predictoras que se deben incluir en un modelo a partir de un conjunto más grande de posibles variables predictoras para modelos lineales, logísticos y otros modelos de regresión tradicionales.

Hay 2 enfoques básicos utilizados en la implementación de la regresión escalonada.

El primero (conocido como selección hacia atrás) implica el uso de un modelo que incluye todas las variables que se cree que potencialmente influyen en la variable objetivo y, luego secuencialmente elimina la variable menos importante del modelo original basado en una medida de aptitud que se ajusta para el número de variables incluidas en el modelo. Este proceso continúa, con otras variables que se eliminan en los pasos posteriores hacia atrás, hasta que no haya más mejoras en la medida de encaje ajustada.

El segundo enfoque básico (conocido como selección de variables hacia delante) comienza con un modelo que incluye solo una constante y, luego agrega a ese modelo una variable del conjunto de variables potenciales que proporciona la mayor mejora en la medida de encaje ajustada. Este proceso se repite para agregar variables adicionales utilizando un conjunto de pasos adicionales hacia delante, que termina cuando no hay ninguna mejora adicional en la medida de encaje ajustada. En la base de la selección de variables hacia atrás, una variable que se elimina nunca vuelve a ingresar en los pasos posteriores, mientras que en la selección hacia delante una variable nunca se elimina en los pasos posteriores una vez que se ha agregado. Se puede utilizar un enfoque híbrido que comienza con un modelo inicial grande (“máximo”) y un primer paso hacia atrás, pero luego se evalúan los movimientos hacia delante y hacia atrás en cada paso posterior.

La herramienta de regresión escalonada basada en R de Alteryx emplea tanto la selección hacia atrás de variables como la selección combinada hacia atrás y hacia delante de variables. Para usar la herramienta, primero crea un modelo de regresión “máxima” que incluya todas las variables que cree que podrían importar y, luego usa la herramienta de regresión escalonado para determinar cuál de estas variables debe eliminarse basándose en una medida de encaje ajustada. Se ofrece al usuario una selección de dos medidas de encaje ajustadas diferentes, el criterio de información de Akaike** (o AIC) y los criterios de información bayesianos*** (o BIC). Estas 2 medidas son similares entre sí, pero el BIC coloca una penalización mayor en el número de variables incluidas en el modelo, lo que normalmente da como resultado un modelo final con menos variables que cuando se utiliza el AIC.

Con esta herramienta, si los datos de entrada provienen de un flujo de datos de Alteryx normal, entonces se utiliza la función de código abierto R aplicable para la estimación del modelo. Si la entrada proviene de una herramienta Salida XDF o de una herramienta Entrada XDF, se utiliza la función RevoScaleR adecuada para la estimación del modelo. La ventaja de utilizar la función basada en RevoScaleR es que permite analizar conjuntos de datos mucho más grandes (sin memoria), pero con la incapacidad de crear parte de la salida de diagnóstico del modelo que está disponible con las funciones de código abierto R.

Esta herramienta utiliza la herramienta R. Dirígete a Opciones > Descargar herramientas predictivas e inicia sesión en el portal de descargas y licencias de Alteryx para instalar R y los paquetes utilizados por la herramienta R. Visita Descargar y usar herramientas predictivas.

Conectar entradas

  • El flujo de salida de una herramienta Conteo de regresiones, Regresión lineal o Regresión logística utilizada para crear el modelo “máximo”. El flujo se puede conectar a cualquier lado de la herramienta.

  • El mismo flujo de datos de Alteryx o flujo de metadatos XDF que se utilizó para crear el modelo “máximo”. El flujo se puede conectar a cualquier lado de la herramienta.

Configurar la herramienta

Utiliza la pestaña Configuración para establecer los controles para el modelo escalonado.

  • El nombre del nuevo modelo: este es el mejor modelo encontrado utilizando la selección escalonada de la variable basada en la dirección de búsqueda y los criterios de selección elegidos. Los nombres del modelo deben comenzar con una letra y pueden contener letras, números y los caracteres especiales de punto (“.”) y guion bajo (“_”). No se permite el uso de otros caracteres especiales (como espacios). Además, R distingue entre mayúsculas y minúsculas.

  • Dirección de búsqueda: la dirección de búsqueda implica pasos hacia atrás y hacia delante (el método comienza con un paso hacia atrás), o solo se utilizan pasos hacia atrás.

  • Medida de encaje ajustada: los criterios utilizados para comparar diferentes modelos y seleccionar el mejor. Las opciones proporcionadas son el criterio de información de Akaike (AIC) o los criterios de información bayesianos (BIC).

Utiliza la pestaña Opciones de gráficos para establecer los controles para la salida gráfica.

  • Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi).

    • La resolución más baja crea un archivo más pequeño y es mejor para ver en un monitor.

    • Una resolución más alta crea un archivo más grande con una mejor calidad para imprimir.

Ver la salida

Conecta una herramienta Examinar a cada ancla de salida para ver los resultados.

  • Ancla O: consta de una tabla del modelo serializado con el nombre del modelo y el tamaño del objeto.

  • Ancla R: consta de los fragmentos de informe generados por la herramienta Escalonado (un resumen estadístico, análisis de desviación tipo II o pruebas ANOVA y gráficos de diagnóstico básicos). El análisis de desviación de tipo II o tabla ANOVA y los gráficos de diagnóstico básicos no se producen cuando la entrada de datos proviene de una herramienta Salida XDF o Entrada XDF.

*https://en.wikipedia.org/wiki/Stepwise_regression **https://es.wikipedia.org/wiki/Criterio_de_información_de_Akaike ***https://es.wikipedia.org/wiki/Criterio_de_información_bayesiano