Skip to main content

Logistic Regression Icon Herramienta Regresión logística

Ejemplo de cada herramienta

La herramienta Regresión logística tiene un ejemplo de uso. Consulta Flujos de trabajo de muestra para aprender cómo acceder a este y muchos otros ejemplos directamente en Alteryx Designer.

La herramienta Regresión logística crea un modelo que relaciona una variable objetivo binaria (como sí/no, aprobar/reprobar) con una o más variables predictoras para obtener la probabilidad estimada de cada una de las dos posibles respuestas para la variable objetivo. Los modelos comunes de regresión logística incluyen logit, probit y registro-registro complementario. Visita Regresión logística.

Esta herramienta utiliza la herramienta R. Dirígete a Opciones> Descargar herramientas predictivas e inicia sesión en el portal de descargas y licencias de Alteryxpara instalar R y los paquetes utilizados por la herramienta R. Visita Descargar y usar herramientas predictivas.

Configurar la herramienta para el procesamiento estándar

Conectar una entrada

Conecta un flujo de datos de Alteryx o un flujo de metadatos XDF que incluya un campo objetivo de interés junto con uno o más campos predictores posibles.

Si los datos de entrada proceden de un flujo de datos de Alteryx, se utiliza la función glm y las funciones glmnet y cv.glmnet de código abierto R (del paquete glmnet) para la estimación del modelo.

Si los datos de entrada proceden de una herramienta Salida XDF o de una herramienta Entrada XDF, se utiliza la función rxLogit de RevoScaleR para la estimación del modelo. La ventaja de utilizar la función basada en RevoScaleR es que permite analizar conjuntos de datos mucho más grandes (sin memoria), pero a costa de una sobrecarga adicional para crear un archivo XDF y la incapacidad de crear parte de la salida de diagnóstico del modelo que está disponible con las funciones de código abierto R, y solo permite el uso de la función de enlace logit.

Configurar la herramienta

  • Escribir el nombre del modelo: ingresa un nombre para el modelo a fin de identificarlo cuando se haga referencia a este en otras herramientas. Los nombres del modelo deben comenzar con una letra y pueden contener letras, números y los caracteres especiales de punto (“.”) y guión bajo (“_”). No se permite el uso de otros caracteres especiales. Además, R distingue entre mayúsculas y minúsculas.

  • Seleccionar la variable objetivo: selecciona los datos que se van a predecir. Una variable objetivo también se conoce como respuesta o variable dependiente.

  • Selecciona las variables predictoras: selecciona los datos que quieres utilizar para influir en el valor de la variable objetivo. Una variable predictora también se conoce como característica o variable independiente. Se puede seleccionar cualquier cantidad de variables predictoras, pero la variable objetivo no debe ser una variable predictora. Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.

Selecciona Personalizar para modificar la configuración del Modelo, Validación cruzada y Gráficos.

Personaliza el modelo

  • Utilizar las ponderaciones de muestreo en la estimación del modelo: selecciona una variable para determinar la cantidad de importancia que debe asignarse a cada registro al crear una estimación del modelo. Si un valor se utiliza como predictor y como variable de ponderación, la variable de ponderación aparecerá en la salida de reporte bajo llamada del modelo, precedida de la cadena “Right_”.

  • Utiliza regresión regularizada: selecciona para equilibrar la misma minimización de la suma de errores cuadráticos con un término de penalización sobre el tamaño de los coeficientes y producir un modelo más simple.

    • Introducir el valor para alfa: selecciona un valor entre 0 (regresión de ridge) y 1 (lasso) para medir el nivel de énfasis dado al coeficiente.

    • Estandarizar variables predictoras: selecciona para hacer que todas las variables tengan el mismo tamaño según el algoritmo utilizado.

    • Utiliza la validación cruzada para determinar parámetros del modelo: selecciona para realizar la validación cruzada y obtener varios parámetros del modelo

      • Cantidad de iteraciones: selecciona el número de iteraciones en los que se van a dividir los datos. Una mayor cantidad de iteraciones genera estimaciones más robustas de la calidad del modelo, pero menos iteraciones permiten que la herramienta funcione más rápido.

      • ¿Qué tipo de modelo?: selecciona el tipo de modelo para determinar los coeficientes.

        • Modelo más simple

        • Modelo con el menor error cuadrático estándar en la muestra

      • Definir semilla: selecciona para asegurar la reproducibilidad de la validación cruzada y selecciona el valor de la semilla utilizada para asignar registros a iteraciones. Elegir la misma semilla cada vez que se ejecuta el flujo de trabajo garantiza que los mismos registros estarán en la misma iteración cada vez. El valor debe ser un entero positivo.

    • Enter positive class for target variable (optional): Some of the measures reported by the tool in binary classification cases (such as true positive rate) require a positive class to be designated. To perform binary classification, type one of the two positive classes of the target variable. If left blank, one of the classes is automatically determined as the positive class. This option is only available for classification models.

  • Selecciona el tipo de modelo: selecciona el tipo de modelo que se debe utilizar para predecir la variable objetivo.

    • logit

    • probit

    • registro-registro complementario

Personaliza la validación cruzada

  • Utiliza la validación cruzada para determinar las estimaciones de la calidad del modelo: selecciona para realizar la validación cruzada y obtener varias métricas y gráficos de calidad del modelo. Algunas métricas y gráficos se mostrarán en la salida R estática, y otros se mostrarán en la salida I interactiva.

  • Cantidad de iteraciones: selecciona el número de iteraciones en los que se van a dividir los datos. Una mayor cantidad de iteraciones genera estimaciones más robustas de la calidad del modelo, pero menos iteraciones permiten que la herramienta funcione más rápido.

  • Cantidad de pruebas: selecciona el número de veces para repetir el procedimiento de validación cruzada. Las iteraciones se seleccionan de manera diferente en cada prueba, y los resultados generales se promedian en todas las pruebas. Una mayor cantidad de iteraciones genera estimaciones más robustas de la calidad del modelo, pero menos iteraciones permiten que la herramienta funcione más rápido.

  • Utilizar validación cruzada estratificada: selecciona para que cada iteración tenga el mismo porcentaje de cada clase que está presente en todo el conjunto de datos. Esta opción solo está disponible para los modelos de clasificación.

  • Definir semilla: selecciona para asegurar la reproducibilidad de la validación cruzada y selecciona el valor de la semilla utilizada para asignar registros a iteraciones. Elegir la misma semilla cada vez que se ejecuta el flujo de trabajo garantiza que los mismos registros estarán en la misma iteración cada vez. El valor debe ser un entero positivo.

Personaliza los gráficos

Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 ppp); 2x (192 ppp); o 3x (288 ppp).

  • La resolución más baja crea un archivo más pequeño y es mejor para ver en un monitor.

  • Una resolución más alta crea un archivo más grande con una mejor calidad para imprimir.

Ver la salida

Conecta una herramienta Examinar a cada ancla de salida para ver los resultados.

  • O (Salida): muestra el nombre del modelo y el tamaño del objeto en la ventana de Resultados.

  • R (Informe): muestra un informe resumido del modelo, el cual incluye un resumen y los gráficos.

  • I (Interactivo): muestra un panel de control interactivo de elementos visuales compatibles que te permite hacer zoom, pasar el cursor y hacer clic.

Configurar la herramienta para el procesamiento en base de datos

La herramienta Regresión logística admite el procesamiento en base de datos de Oracle, Microsoft SQL Server 2016 y Teradata. Visita Información general sobre el procesamiento en base de datos para obtener más información sobre la compatibilidad y las herramientas de la categoría En base de datos.

Cuando se coloca una herramienta Regresión logística en el lienzo con otra herramienta de la categoría En base de datos, la herramienta cambia automáticamente a la versión En base de datos. Para cambiar la versión de la herramienta, haz clic con el botón derecho del mouse en la herramienta, selecciona "Elegir la versión de la herramienta" y haz clic en una versión. Visita Analítica predictiva para obtener más información sobre la compatibilidad con analítica predictiva en base de datos.

Conectar una entrada

Conecta un flujo de datos de la categoría En base de datos, que incluya un campo objetivo de interés junto con uno o más campos predictores posibles.

Si la entrada procede de un flujo de datos del tipo En base de datos de SQL Server o Teradata, se debe utilizar la función rxLogit de Microsoft Machine Learning Server (del paquete RevoScaleR) para la estimación del modelo. Esto permite que el procesamiento se realice en el servidor de la base de datos, siempre y cuando el equipo local y el servidor se hayan configurado con Microsoft Machine Learning Server. Esto puede generar una mejora significativa en el rendimiento.

Si la entrada procede de un flujo de datos del tipo En base de datos de Oracle, se debe utilizar la función ore.lm de Oracle R Enterprise (del paquete OREmodels) para la estimación del modelo. Esto permite que el procesamiento se realice en el servidor de la base de datos, siempre y cuando el equipo local y el servidor se hayan configurado con Oracle R Enterprise. Esto puede generar una mejora significativa en el rendimiento.

Para un flujo de trabajo en base de datos en una base de datos Oracle, la funcionalidad completa del objeto modelo resultante solo se produce si la herramienta regresión logística está conectada directamente desde una herramienta Conexión En-BD con una única tabla completa seleccionada, o si se utiliza una herramienta Escribir datos En-BD inmediatamente antes de la herramienta Regresión logística para guardar los datos de estimación en la base de datos. Oracle R Enterprise hace uso de la tabla de datos de estimación para proporcionar una funcionalidad completa del objeto del modelo, como el cálculo de intervalos de predicción.

Configurar la herramienta

  • Nombre del modelo: cada modelo debe tener un nombre para su posterior identificación. La opción es ingresar un nombre o generar uno automáticamente. Los nombres del modelo deben comenzar con una letra y pueden contener letras, números y los caracteres especiales de punto (“.”) y guion bajo (“_”). No se permite el uso de otros caracteres especiales. Además, R distingue entre mayúsculas y minúsculas.

  • Selecciona la variable objetivo: selecciona el campo del flujo de datos que deseas predecir.

  • Selecciona los campos predictores: selecciona los campos del flujo de datos que crees que “causan” los cambios en el valor de la variable objetivo. Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.

  • Omitir una constante de modelo: marca este elemento si deseas omitir una constante del modelo. Esto debe hacerse si hay una razón explícita para hacerlo.

  • Opciones específicas de Oracle: esta opción permite la configuración de opciones adicionales solo relevantes para la plataforma Oracle.

    • Tipo de modelo: selecciona el tipo de modelo que se debe utilizar para predecir la variable objetivo.

      • logit

      • probit

      • registro-registro complementario

    • Guardar el modelo en la base de datos: hace que el objeto modelo estimado se guarde en la base de datos, y se recomienda para que los objetos del modelo y las tablas de estimación vivan juntos en una ubicación centralizada en la base de datos de Oracle.

  • Utilizar ponderaciones de muestreo para la estimación del modelo: haz clic en la casilla de verificación y, luego, selecciona un campo de ponderación del flujo de datos para estimar un modelo que utilice ponderación de muestreo. Si un campo se utiliza tanto como predictor y como variable de ponderación, la variable de ponderación aparecerá en la salida bajo llamada del modelo, precedida de la cadena “Right_”.

  • Configuración específica de Teradata: Microsoft Machine Learning Server necesita información de configuración adicional acerca de la plataforma específica de Teradata que se va a utilizar, en particular, las rutas en el servidor Teradata a los ejecutables binarios de R, y la ubicación donde se pueden escribir los archivos temporales que son utilizados por Microsoft Machine Learning Server. Esta información deberá ser proporcionada por un administrador local de Teradata.

Ver la salida

Conecta una herramienta Examinar a cada ancla de salida para ver los resultados.

  • Ancla O: salida. Muestra el nombre del modelo y el tamaño del objeto en la ventana de Resultados.

  • Ancla R: informe. Muestra un informe resumido del modelo, el cual incluye un resumen y los gráficos.