Herramienta de regresión lineal
La herramienta de regresión lineal crea un modelo simple para estimar los valores, o evaluar las relaciones entre variables basadas en una relación lineal.
Los dos tipos principales de regresión lineal son no regularizados y regularizados:
- La regresión lineal no regularizada produce modelos lineales que minimizan la suma de errores cuadrados entre los valores reales y predichos de la variable de destino de datos de entrenamiento.
- La regresión lineal regularizada equilibra la misma minimización de la suma de los errores cuadrados con un plazo de penalidad sobre el tamaño de los coeficientes y tiende a producir modelos más simples que son menos propensos a la sobreconexión.
Esta herramienta utiliza la herramienta R. Ve a Opciones > Descargar herramientas predictivas e inicia sesión Portal de licencias y descargas de Alteryx para instalar R y los paquetes utilizados por la Herramienta R. Consulta Descargar y usar herramientas predictivas.
R paquete | Tipo | Descripción del paquete |
---|---|---|
AlteryxPredictive | Personalizado | Este paquete proporciona funciones personalizadas y llama a los paquetes Cran y Custom R. |
AlteryxRDataX | Personalizado | Este paquete proporciona conectividad entre Alteryx y r, así como una serie de funciones para facilitar la interacción entre Alteryx y r. |
AlteryxRviz | Personalizado | Este paquete ha quedado sin uso. Proporciona funciones que impulsan visualizaciones interactivas para las herramientas predictivas en Alteryx (Series de tiempo, Análisis de red). |
flightdesk | Personalizado | Este paquete facilita la creación de paneles interactivos para reportar salidas de modelos predictivos. |
Conecte un flujo de datos Alteryx o una secuencia de metadatos XDF que incluya un campo de interés de destino junto con uno o varios campos predictores posibles.
Si los datos de entrada proceden de una secuencia de datos Alteryx, se utiliza la función de código abierto R LM y las funciones glmnet y CV. glmnet (del paquete glmnet) para la estimación del modelo.
Si los datos de entrada provienen de una herramienta de salida XDF o de una herramienta de entrada XDF, la función RevoScaleR rxLinMod se utiliza para la estimación del modelo. La ventaja de usar la función basada en RevoScaleR es que permite analizar los datasets mucho más grandes (fuera de la memoria), pero al costo de sobrecarga adicional para crear un archivo XDF y la incapacidad de crear parte del modelo de salida de diagnóstico que está disponible con las funciones de código abierto R.
- Nombredel modelo: escriba un nombre para el modelo para identificar el modelo cuando se hace referencia en otras herramientas. Los nombres de los modelos deben comenzar con una letra y pueden contener letras, números y el período de caracteres especiales (.) y subrayado (_). No se permiten otros caracteres especiales, y R distingue entre mayúsculas y minúsculas.
- Seleccione la variablede destino: seleccione los datos que desea predecir. Una variable de destino también se conoce como una respuesta o variable dependiente.
- Seleccione las variables predictoras: seleccione los datos que se usarán para influir en el valor de la variable de destino. Una variable predictora también se conoce como una característica o una variable independiente. Se puede seleccionar cualquier número de variables predictoras, pero la variable de destino no debe ser también una variable predictora.
Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.
Haga clic en personalizar para modificar el modelo, la validación cruzaday la configuración de trazados .
- Omitir una constantede modelo: Seleccione esta opción para omitir una constante y tenga la línea de ajuste más conveniente pase a través del origen.
- Utilice una variable de peso para los cuadrados menos ponderados: Seleccione una variable para determinar la cantidad de importancia que debe colocar en cada registro al crear un modelo de cuadrados mínimos.
- Utilice la regresión regularizada: Seleccione para equilibrar la misma minimización de la suma de los errores cuadrados con un plazo de penalización en el tamaño de los coeficientes y producir un modelo más simple.
- Introduzca el valor alfa: Seleccione un valor entre 0 (regresión de cresta) y 1 (lazo) para medir la cantidad de énfasis dado al coeficiente.
- Estandarizar variables predictoras: Seleccione para hacer todas las variables del mismo tamaño basándose en el algoritmo utilizado.
- Utilice la validación cruzada para determinar los parámetrosdel modelo: Seleccione esta opción para realizar la validación cruzada y obtener varios parámetros del modelo
- Número de pliegues: seleccione el número de pliegues para dividir los datos. Un mayor número de pliegues da como resultado estimaciones más robustas de la calidad del modelo, pero menos pliegues hacen que la herramienta funcione más rápido.
- Qué tipo de modelo: seleccione el tipo de modelo para determinar los coeficientes.
- Modelo más simple
- Modelo con el menor error cuadrático estándar en la muestra
- Establecer semilla: Seleccione esta opción para asegurar la reproducibilidad de la validación cruzada y seleccione el valor de la semilla utilizada para asignar registros a pliegues. La elección de la misma semilla cada vez que se ejecuta el flujo de trabajo garantiza que los mismos registros estarán en el mismo pliegue cada vez. El valor debe ser un entero positivo.
- Utilice la validación cruzada para determinar las estimaciones de la calidad del modelo: Seleccione esta opción para realizar la validación cruzada y obtener varios gráficos y métricas de calidad del modelo. Algunas métricas y gráficos se mostrarán en la salida estática R, y otras aparecerán en la salida interactiva i.
- Número de pliegues: seleccione el número de pliegues para dividir los datos. Un mayor número de pliegues da como resultado estimaciones más robustas de la calidad del modelo, pero menos pliegues hacen que la herramienta funcione más rápido.
- Número de ensayos: seleccione el número de veces que se desea repetir el procedimiento de validación cruzada. Los pliegues se seleccionan de forma diferente en cada ensayo, y los resultados totales se promedian en todos los ensayos. Un mayor número de pliegues da como resultado estimaciones más robustas de la calidad del modelo, pero menos pliegues hacen que la herramienta funcione más rápido.
- Establecer semilla: Seleccione esta opción para asegurar la reproducibilidad de la validación cruzada y seleccione el valor de la semilla utilizada para asignar registros a pliegues. La elección de la misma semilla cada vez que se ejecuta el flujo de trabajo garantiza que los mismos registros estarán en el mismo pliegue cada vez. El valor debe ser un entero positivo.
-
Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi). La resolución más baja crea un archivo más pequeño y es el mejor para la visión en un monitor. Una resolución más alta crea un archivo más grande con una mejor calidad de impresión.
- Mostrar gráficos: Seleccione esta opción para mostrar gráficos cuando utilice la regresión regularizada.
Conecta una herramienta Explorar con cada ancla de salida para ver los resultados.
- O (Output): muestra el nombre del modelo y el tamaño del objeto en la ventana de resultados.
- R (informe): muestra un informe resumido del modelo que incluye un resumen y parcelas.
- I (interactivo): muestra un panel de visualizaciones interactivas para soportar más descubrimiento de datos y exploración de modelos.
La herramienta de regresión lineal es compatible con Oracle, Microsoft SQL Server 2016 y Teradata en el procesamiento de bases de datos. Consulta Introducción a En base de datos. para obtener más información sobre las herramientas y el soporte en base de datos.
Cuando se coloca una herramienta de regresión lineal en el lienzo con otra herramienta in-dB, la herramienta cambia automáticamente a la versión in-dB. Para cambiar la versión de la herramienta, haga clic con el botón derecho en la herramienta, seleccione la versión de la herramienta y haga clic en una versión diferente de la herramienta. Consulta Analítica Predictiva para obtener más información sobre el soporte predictivo en base de datos.
Conecte una secuencia de datos que incluya un campo de interés de destino junto con uno o varios campos predictores posibles.
Si la entrada es de un flujo de datos de base de información de SQL Server o Teradata, entonces la función rxLinMod del servidor de aprendizaje de máquina (del paquete RevoScaleR) se utiliza para la estimación del modelo. Esto permite que el procesamiento se realice en el servidor de base de datos, siempre y cuando tanto el equipo local como el servidor se hayan configurado con Microsoft machine learning Server y puedan resultar en una mejora significativa del rendimiento.
Si la entrada es de una secuencia de datos de Oracle en la base, entonces la función de Oracle R Enterprise Ore. LM (del paquete OREmodels) se utiliza para la estimación del modelo. Esto permite que el procesamiento se realice en el servidor de base de datos, siempre y cuando tanto el equipo local como el servidor se hayan configurado con Oracle R Enterprise y puedan resultar en una mejora significativa del rendimiento.
Para un flujo de trabajo en base de datos en una base de datos Oracle, la funcionalidad completa del objeto de modelo resultante descendente sólo se produce si la herramienta de regresión lineal está conectada directamente desde una herramienta Connect in-dB con una única tabla completa seleccionada, o si una herramienta de escritura de datos en-dB es se utiliza inmediatamente antes de la herramienta de regresión lineal para guardar la tabla de datos de estimación en la base de datos. Oracle R Enterprise hace uso de la tabla de datos de estimación para proporcionar funcionalidad de objeto de modelo completa, como calcular los intervalos de predicción.
- Nombre del modelo: cada modelo debe recibir un nombre para poder identificarlo posteriormente. La opción es proporcionar un nombre o tener un nombre generado automáticamente. Los nombres de los modelos deben comenzar con una letra y pueden contener letras, números y el período de caracteres especiales (".") y subrayado ("_"). No se permiten otros caracteres especiales, y R distingue entre mayúsculas y minúsculas.
- Seleccione la variablede destino: seleccione el campo de la secuencia de datos que desea predecir.
- Seleccione las variables predictoras: elija los campos de la secuencia de datos que cree que "causan" cambios en el valor de la variable de destino.
- Omitir una constantede modelo: marque este elemento si desea omitir una constante del modelo. Esto debería hacerse si hay una razón explícita para hacerlo.
- Utilice pesos de muestreo parala estimación del modelo: haga clic en la casilla de verificación y, a continuación, seleccione un campo de peso de la secuencia de datos para estimar un modelo que utilice el peso de muestreo. Un campo se utiliza como un predictor y la variable de peso, entonces la variable de peso aparecerá en la llamada de modelo en la salida con la cadena "Right_" antepone.
- Opciones específicas de Oracle: esta opción permite la configuración de opciones adicionales sólo relevantes para la plataforma Oracle.
- Guardar el modelo en la base de datos: hace que el objeto de modelo estimado se guarde en la base de datos y se recomienda para que los objetos de modelo y las tablas de estimación convivan en una ubicación centralizada en la base de datos Oracle.
- Teradata configuración específica: Microsoft machine learning Server necesita información adicional sobre la configuración de la plataforma Teradata específica que se utilizará, en particular, los paths en el servidor Teradata a los ejecutables binarios de R, y la ubicación donde se pueden escribir archivos temporales utilizados por Microsoft machine learning Server. Esta información deberá ser proporcionada por un administrador local de Teradata.
Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.
Conecta una herramienta Explorar con cada ancla de salida para ver los resultados.
- O (Output): muestra el nombre del modelo y el tamaño del objeto en la ventana de resultados.
- R (informe): muestra un informe resumido del modelo que incluye un resumen y parcelas.