Herramienta de paso gradual

La herramienta de paso a paso determina las mejores variables predictoras que se incluirán en un modelo de un conjunto más amplio de variables predictoras potenciales para modelos de regresión lineal, logístico y de otro tipo tradicional.

Existen dos enfoques básicos utilizados en la aplicación de la regresión gradual. La primera (conocida como selección inversa) implica el uso de un modelo que incluye todas las variables que se cree puedan influir potencialmente en la variable de destino y, a continuación, elimina secuencialmente la variable menos importante del modelo original basándose en una bondad de Ajuste la medida que se ajusta para el número de variables incluidas en el modelo. Este proceso continúa, con otras variables que se quitan en pasos hacia atrás subsecuentes, hasta que no hay más mejoras en la medida ajustada del ajuste. El segundo enfoque básico (conocido como selección de variable de avance) comienza con un modelo que incluye sólo una constante y, a continuación, agrega a ese modelo una variable fuera del conjunto de variables potenciales que proporciona la mayor mejora en la medida de ajuste ajustada. Este proceso se repite para añadir variables adicionales mediante un conjunto de pasos de avance adicionales, que terminan cuando no hay ninguna mejora en la medida de ajuste ajustada. En la base de la selección de variables atrasadas, una variable que se quita nunca vuelve a entrar en los pasos subsecuentes, mientras que en la selección de avance una variable nunca se quita en los pasos posteriores una vez que se ha agregado. Se puede utilizar un enfoque híbrido que comienza con un modelo inicial grande ("máximo") y un primer paso hacia atrás, pero luego se evalúan los movimientos hacia adelante y hacia atrás en cada paso subsiguiente.

La herramienta de regresión escalonada basada en R de Alteryx emplea tanto la selección hacia atrás de variables como la selección combinada hacia atrás y hacia delante de variables. Para utilizar la herramienta, primero cree un modelo de regresión "máximo" que incluya todas las variables que usted cree que podrían importar y, a continuación, utilice la herramienta de regresión por etapas para determinar cuál de estas variables debe eliminarse basándose en una medida ajustada. Se ofrece una selección de dos medidas de ajuste ajustadas diferentes al usuario, el criterio de información Akaike * * (o AIC) y el criterio de información Bayesiano * * * (o BIC). Estas dos medidas son similares entre sí, pero el BIC coloca una sanción mayor en el número de variables incluidas en el modelo, lo que típicamente resulta en un modelo final con menos variables que el caso cuando se utiliza la AIC.

Con esta herramienta, si los datos de entrada son de una secuencia de datos Alteryx regular, entonces la función de código abierto aplicable R se utiliza para la estimación del modelo. Si la entrada proviene ya sea de un Herramienta Datos de salida XDF o Herramienta Datos de entrada XDF herramienta, entonces la función apropiada del escalador de Revo se utiliza para la estimación del modelo. La ventaja de usar la función basada en Revo Scaler es que permite analizar los datasets mucho más grandes (fuera de la memoria), pero con la incapacidad de crear parte del modelo de salida de diagnóstico que está disponible con las funciones de código abierto R.

Esta herramienta utiliza la herramienta R. Ve a Opciones > Descargar herramientas predictivas e inicia sesión Portal de licencias y descargas de Alteryx para instalar R y los paquetes utilizados por la Herramienta R. Consulta Descargar y usar herramientas predictivas.

Conectar entradas

La secuencia de salida de una regresión de conteo, regresión lineal o herramienta de regresión logística utilizada para crear el modelo "máximo". La secuencia se puede introducir en cualquier lado de la herramienta.
La misma secuencia de datos Alteryx o XDF Metadata streamthat se usó para crear el modelo "máximo". La secuencia se puede introducir en cualquier lado de la herramienta.

Configurar la herramienta

Utilice la ficha Configuración para establecer los controles del modelo de paso.

El nombre del nuevo modelo: este es el mejor modelo que se encuentra utilizando la selección de variables escalonadas en función de la dirección de búsqueda y los criterios de selección elegidos. Los nombres de los modelos deben comenzar con una letra y pueden contener letras, números y el período de caracteres especiales (".") y subrayado ("_"). No se permiten otros caracteres especiales (como espacios), y R es sensible a mayúsculas y minúsculas.
Dirección de la búsqueda: Si la dirección de la búsqueda implica pasos hacia atrás y hacia adelante (el método comienza con un paso hacia atrás), o sólo se utilizan los pasos hacia atrás.
Medida ajustada del ajuste: los criterios usados para comparar diversos modelos y la selección el mejor modelo. Las opciones que se ofrecen son el criterio de información de Akaike (AIC) o los criterios de información bayesianos (BIC).

Utilice la ficha opciones gráficas para definir los controles de la salida gráfica.

Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi). La resolución más baja crea un archivo más pequeño y es el mejor para la visión en un monitor. Una resolución más alta crea un archivo más grande con una mejor calidad de impresión.

Ver la salida

Conecta una herramienta Explorar con cada ancla de salida para ver los resultados.

O Anchor: consiste en una tabla del modelo serializado con el nombre del modelo y el tamaño del objeto.
R Anchor: consiste en los fragmentos de informe generados por la herramienta de paso: un resumen estadístico, el análisis tipo II de las pruebas de desviación o ANOVA, y las parcelas de diagnóstico básicas. El análisis de tipo II de desviación o tabla ANOVA y las parcelas de diagnóstico básicas no se producen cuando la entrada de datos proviene de una herramienta de entrada XDF OUTPUT o XDF.

*https://en.wikipedia.org/wiki/Stepwise_regression * *https://en.wikipedia.org/wiki/Akaike_information_criterion* * *https://en.wikipedia.org/wiki/Bayesian_information_criterion