Herramienta de regresión logística
La herramienta de regresión logística crea un modelo que relaciona una variable binaria de destino (como sí/no, Pass/Fall) a una o más variables predictoras para obtener la probabilidad estimada para cada una de las dos posibles respuestas para la variable de destino, logística común los modelos de regresión incluyen logit, probit, y log-log complementario. Ver regresión logística.
Esta herramienta utiliza la herramienta R. Ve a Opciones > Descargar herramientas predictivas e inicia sesión Portal de licencias y descargas de Alteryx para instalar R y los paquetes utilizados por la Herramienta R. Consulta Descargar y usar herramientas predictivas.
Conecte un flujo de datos Alteryx o una secuencia de metadatos XDF que incluya un campo de interés de destino junto con uno o varios campos predictores posibles.
Si los datos de entrada proceden de una secuencia de datos Alteryx, se utiliza la función GLM de código abierto y las funciones glmnet y CV. glmnet (del paquete glmnet) para la estimación del modelo.
Si los datos de entrada provienen ya sea de un Herramienta Datos de salida XDF o Herramienta Datos de entrada XDF, entonces la función RevoScaleR rxLogit se utiliza para la estimación del modelo. La ventaja de usar la función basada en RevoScaleR es que permite analizar los datasets mucho más grandes (fuera de la memoria), pero al costo de sobrecarga adicional para crear un archivo XDF y la incapacidad de crear parte del modelo de salida de diagnóstico que está disponible con las funciones de código abierto R, y sólo permite el uso de una función de enlace logit.
- Tipo nombre del modelo: escriba un nombre para el modelo para identificar el modelo cuando se hace referencia en otras herramientas. Los nombres de los modelos deben comenzar con una letra y pueden contener letras, números y el período de caracteres especiales (.) y subrayado (_). No se permiten otros caracteres especiales, y R distingue entre mayúsculas y minúsculas.
- Seleccione la variablede destino: seleccione los datos que desea predecir. Una variable de destino también se conoce como una respuesta o variable dependiente.
- Seleccione variables predictoras: seleccione los datos que se usarán para influir en el valor de la variable de destino. Una variable predictora también se conoce como una característica o una variable independiente. Se puede seleccionar cualquier número de variables predictoras, pero la variable de destino no debe ser también una variable predictora.
Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.
Haga clic en personalizar para modificar el modelo, la validación cruzaday la configuración de trazados .
- Utilice pesos de muestreo en la estimación del modelo: Seleccione una variable para determinar la cantidad de importancia que debe colocar en cada registro al crear una estimación de modelo. Si se utiliza un valor como un predictor y una variable de peso, la variable de peso aparece en la llamada del modelo en la salida del informe con la cadena "Right_" antepone.
- Utilice la regresión regularizada: Seleccione para equilibrar la misma minimización de la suma de los errores cuadrados con un plazo de penalización en el tamaño de los coeficientes y producir un modelo más simple.
- Introduzca el valor alfa: Seleccione un valor entre 0 (regresión de cresta) y 1 (lazo) para medir la cantidad de énfasis dado al coeficiente.
- Estandarizar variables predictoras: Seleccione para hacer todas las variables del mismo tamaño basándose en el algoritmo utilizado.
- Utilice la validación cruzada para determinar los parámetrosdel modelo: Seleccione esta opción para realizar la validación cruzada y obtener varios parámetros del modelo
- Número de pliegues: seleccione el número de pliegues para dividir los datos. Un mayor número de pliegues da como resultado estimaciones más robustas de la calidad del modelo, pero menos pliegues hacen que la herramienta funcione más rápido.
- Qué tipo de modelo: seleccione el tipo de modelo para determinar los coeficientes.
- Modelo más simple
- Modelo con el menor error cuadrático estándar en la muestra
- Establecer semilla: Seleccione esta opción para asegurar la reproducibilidad de la validación cruzada y seleccione el valor de la semilla utilizada para asignar registros a pliegues. La elección de la misma semilla cada vez que se ejecuta el flujo de trabajo garantiza que los mismos registros estarán en el mismo pliegue cada vez. El valor debe ser un entero positivo.
- Seleccione tipode modelo: seleccione el tipo de modelo que se utilizará para predecir la variable de destino.
- logit
- probit
- registro-registro complementario
- Utilice la validación cruzada para determinar las estimaciones de la calidad del modelo: Seleccione esta opción para realizar la validación cruzada y obtener varios gráficos y métricas de calidad del modelo. Algunas métricas y gráficos se mostrarán en la salida estática R, y otras aparecerán en la salida interactiva i.
- Número de pliegues: seleccione el número de pliegues para dividir los datos. Un mayor número de pliegues da como resultado estimaciones más robustas de la calidad del modelo, pero menos pliegues hacen que la herramienta funcione más rápido.
- Número de ensayos: seleccione el número de veces que se desea repetir el procedimiento de validación cruzada. Los pliegues se seleccionan de forma diferente en cada ensayo, y los resultados totales se promedian en todos los ensayos. Un mayor número de pliegues da como resultado estimaciones más robustas de la calidad del modelo, pero menos pliegues hacen que la herramienta funcione más rápido.
- Ingrese la clase positiva para la variable Target: algunas de las medidas reportadas por la herramienta en los casos de clasificación binaria (como la tasa real positiva) requieren una clase positiva que se designará. Para realizar la clasificación binaria, escriba una de las dos clases positivas de la variable de destino. Si se deja en blanco, una de las clases se determina automáticamente como la clase positiva. Esta opción sólo está disponible para los modelos de clasificación.
- Utilice la validación cruzada estratificada: Seleccione para que cada doblez tenga el mismo porcentaje de cada clase que la presente en todo el conjunto de datasets. Esta opción sólo está disponible para los modelos de clasificación.
- Establecer semilla: Seleccione esta opción para asegurar la reproducibilidad de la validación cruzada y seleccione el valor de la semilla utilizada para asignar registros a pliegues. La elección de la misma semilla cada vez que se ejecuta el flujo de trabajo garantiza que los mismos registros estarán en el mismo pliegue cada vez. El valor debe ser un entero positivo.
-
Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi). La resolución más baja crea un archivo más pequeño y es el mejor para la visión en un monitor. Una resolución más alta crea un archivo más grande con una mejor calidad de impresión.
Conecta una herramienta Explorar con cada ancla de salida para ver los resultados.
- O (Output): muestra el nombre del modelo y el tamaño del objeto en la ventana de resultados.
- R (informe): muestra un informe resumido del modelo que incluye un resumen y parcelas.
- I (interactivo): muestra un panel interactivo de visuals de soporte que le permite hacer zoom, suspender y hacer clic.
La herramienta de regresión logística soporta Oracle, Microsoft SQL Server 2016 y Teradata en el procesamiento de bases de datos. Consulta Introducción a En base de datos. para obtener más información sobre las herramientas y el soporte en base de datos.
Cuando se coloca una herramienta de regresión logística en el lienzo con otra herramienta in-dB, la herramienta cambia automáticamente a la versión in-dB. Para cambiar la versión de la herramienta, haga clic con el botón derecho en la herramienta, seleccione la versión de la herramienta y haga clic en una versión diferente de la herramienta. Consulta Analítica Predictiva para obtener más información sobre el soporte predictivo en base de datos.
Conecte una secuencia de datos que incluya un campo de interés de destino junto con uno o varios campos predictores posibles.
Si la entrada es de un flujo de datos de base de información de SQL Server o Teradata, entonces la función rxLogit del servidor de aprendizaje de máquina (del paquete RevoScaleR) se utiliza para la estimación del modelo. Esto permite que el procesamiento se realice en el servidor de base de datos, siempre y cuando tanto el equipo local como el servidor se hayan configurado con Microsoft machine learning Server y puedan resultar en una mejora significativa del rendimiento.
Si la entrada es de una secuencia de datos de Oracle en la base, entonces la función de Oracle R Enterprise Ore. LM (del paquete OREmodels) se utiliza para la estimación del modelo. Esto permite que el procesamiento se realice en el servidor de base de datos, siempre y cuando tanto el equipo local como el servidor se hayan configurado con Oracle R Enterprise y puedan resultar en una mejora significativa del rendimiento.
Para un flujo de trabajo en base de datos en una base de datos Oracle, la funcionalidad completa del objeto de modelo resultante descendente sólo se produce si la herramienta de regresión logística está conectada directamente desde una herramienta Connect in-dB con una única tabla completa seleccionada, o si una herramienta de escritura de datos en dB se utiliza inmediatamente antes de la herramienta de regresión logística para guardar la tabla de datos de estimación en la base de datos. Oracle R Enterprise hace uso de la tabla de datos de estimación para proporcionar funcionalidad de objeto de modelo completa, como calcular los intervalos de predicción.
- Nombre del modelo: cada modelo debe recibir un nombre para poder identificarlo posteriormente. La opción es proporcionar un nombre o tener un nombre generado automáticamente. Los nombres de los modelos deben comenzar con una letra y pueden contener letras, números y el período de caracteres especiales (".") y subrayado ("_"). No se permiten otros caracteres especiales, y R distingue entre mayúsculas y minúsculas.
- Seleccione la variablede destino: seleccione el campo de la secuencia de datos que desea predecir.
- Seleccione las variables predictoras: elija los campos de la secuencia de datos que cree que "causan" cambios en el valor de la variable de destino.
- Omitir una constantede modelo: marque este elemento si desea omitir una constante del modelo. Esto debería hacerse si hay una razón explícita para hacerlo.
- Opciones específicas de Oracle: esta opción permite la configuración de opciones adicionales sólo relevantes para la plataforma Oracle.
- Tipode modelo: seleccione el tipo de modelo que se utilizará para predecir la variable de destino.
- logit
- probit
- registro-registro complementario
- Guardar el modelo en la base de datos: hace que el objeto de modelo estimado se guarde en la base de datos y se recomienda para que los objetos de modelo y las tablas de estimación convivan en una ubicación centralizada en la base de datos Oracle.
- Utilice pesos de muestreo parala estimación del modelo: haga clic en la casilla de verificación y, a continuación, seleccione un campo de peso de la secuencia de datos para estimar un modelo que utilice el peso de muestreo. Un campo se utiliza como un predictor y la variable de peso, entonces la variable de peso aparecerá en la llamada de modelo en la salida con la cadena "Right_" antepone.
- Teradata configuración específica: Microsoft machine learning Server necesita información adicional sobre la configuración de la plataforma Teradata específica que se utilizará, en particular, los paths en el servidor Teradata a los ejecutables binarios de R, y la ubicación donde se pueden escribir archivos temporales utilizados por Microsoft machine learning Server. Esta información deberá ser proporcionada por un administrador local de Teradata.
Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.
Conecta una herramienta Explorar con cada ancla de salida para ver los resultados.
- O ancla: salida. Muestra el nombre del modelo y el tamaño del objeto en la ventana resultados.
- R ancla: informe. Muestra un informe de resumen del modelo que incluye un resumen y diagramas.