Skip to main content

Spline Model Tool Icon Herramienta Modelo de acoplamientos

Ejemplo de cada herramienta

La herramienta Modelo de acoplamientos tiene un ejemplo de uso. Consulta Flujos de trabajo de muestra para aprender cómo acceder a este y muchos otros ejemplos directamente en Alteryx Designer.

La herramienta Modelo de acoplamientos proporciona el algoritmo de acoplamientos de regresión adaptativa multivariante (o MARS) de Friedman*. Este método es un modelo de aprendizaje estadístico moderno que: (1) autodetermina qué subconjunto de campos predice mejor un campo objetivo de interés; (2) es capaz de capturar relaciones e interacciones altamente no lineales entre campos, y puede abordar automáticamente una amplia gama de problemas de regresión y clasificación de una manera que puede ser transparente para el usuario (el usuario puede hacer tan poco como especificar un campo objetivo y un conjunto de campos predictores, pero la herramienta puede ser ajustada ampliamente por usuarios avanzados).

La herramienta es aplicable a una amplia gama de problemas, como la clasificación, los datos de recuento y los problemas de regresión de objetivos continuos. El método utiliza un enfoque de dos pasos para desarrollar un modelo. En el primer paso (conocido como el pase hacia delante, y es similar al algoritmo de partición recursiva utilizado en la herramienta Árbol de decisión) se determinan las variables que más importan para predecir el objetivo determinado y se encuentran los “puntos de división” apropiados (conocidos como “nudos”) en las variables. Sin embargo, a diferencia de un árbol de decisión, una línea entre los nudos adyacentes (llamado término) es adecuada en lugar de usar saltos discretos como se hace en los árboles de decisión. Esto da como resultado la construcción de una función lineal por partes para cada variable que puede aproximarse estrechamente a cualquier relación entre las variables objetivo y predictoras. El segundo paso (conocido como pase hacia atrás o depuración) elimina algunos de los nudos en las variables (alargando el segmento de línea en los términos restantes) para minimizar la posibilidad de que el modelo sobreajuste la muestra de estimación y capture el ruido de la muestra de estimación en lugar de la señal subyacente.

Esta herramienta utiliza la herramienta R. Dirígete a Opciones> Descargar herramientas predictivas e inicia sesión en el portal de descargas y licencias de Alteryxpara instalar R y los paquetes utilizados por la herramienta R. Visita Descargar y usar herramientas predictivas.

Entrada

Un flujo de datos de Alteryx que incluye el campo de interés objetivo, junto con uno o más campos predictores posibles.

Configurar la herramienta

Utiliza la pestaña Parámetros obligatorios para establecer los controles obligatorios del modelo de acoplamientos.

  • Nombre del modelo: cada modelo debe tener un nombre para su posterior identificación. Los nombres del modelo deben comenzar con una letra y pueden contener letras, números y los caracteres especiales de punto (“.”) y guion bajo (“_”). No se permite el uso de otros caracteres especiales. Además, R distingue entre mayúsculas y minúsculas.

  • Seleccionar el campo objetivo: selecciona el campo del flujo de datos que quieres predecir.

  • Seleccionar los campos predictores: elige el campo del flujo de datos que crees que esté “causando” cambios en el valor de la variable objetivo. Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.

  • ¿Incluir gráficos de efectos?: si se marca, se producirán gráficos de efectos que mostrarán gráficamente la relación entre la variable predictora y el objetivo en niveles fijos (la mediana para predictores numéricos, el primer nivel para factores) de otros campos predictores. Existen opciones para mostrar solo los campos que tienen efectos principales en el objetivo, solo efectos de interacciones bidireccionales entre los campos que utilizan un gráfico de perspectiva o ambos efectos principales y de interacciones bidireccionales.

Utiliza la pestaña Personalización del modelo (opcional) para hacer ajustes más específicos al modelo.

  • Especificar el tipo de destino y la familia GLM: hay cinco tipos de campos objetivo compatibles:

    • Objetivos continuos (por ejemplo, objetivos numéricos donde cualquier valor único dado tiene un porcentaje relativamente pequeño del total de instancias).

    • Objetivos distribuidos gamma (objetivos numéricos estrictamente positivos que tienen un alto porcentaje de valores de respuesta bastante bajos, pero un pequeño porcentaje de valores relativamente altos)

    • “Conteos” objetivos (por ejemplo, objetivos con valores enteros para los cuales la mayoría de los valores únicos tienen un porcentaje bastante alto del total de instancias, por ejemplo, la cantidad de visitas al consultorio médico que una persona realiza en un año).

    • Objetivos categóricos binarios (por ejemplo, campos objetivo de la variedad “sí/no”).

    • Objetivos categóricos multinomiales (por ejemplo, campos objetivo con un número limitado de resultados discretos, como “A”, “B” o “C”). Cada tipo de campo objetivo puede tener una o más posibles funciones de distribución asociadas (que está relacionada con la medida que el algoritmo intenta minimizar).

    Each type of target field can have one or more possible associated distribution functions (related to the measure the algorithm is attempting to minimize).

    • Continuous targets can have either no explicit distribution or Gaussian (in other words, Normal) distribution.

    • In the case of a Gamma distributed target, the choice is the link function to use (the relationship between the means of the distribution and linear predictor).

    • Count (integer) targets minimize a loss function based on the Poisson distribution and use either a log (preferred) or identity link function.

    • Binary categorical targets can use a logit (also used in classical logistic regression), a probit, or a complementary log-log link function.

    • A multinomial categorical response is treated in a nonstandard way. Specifically, instead of estimating a true multinomial model, a set of binary models (using a logit link function) are estimated. For instance, if the possible responses are "A", "B", or "C", what is estimated is a model of: "A" against any other choice, "B" against any other choice, and "C" against any other choice.

  • Escalar la variable objetivo: si la variable objetivo es una variable continua y se selecciona esta opción, se someterá a una transformación de puntuación z (media cero, desviación estándar uno) para ayudar con la estabilidad numérica en el pase hacia adelante (primera etapa) del algoritmo.

  • Número máximo de nudos o determinar automáticamente (Auto): esta opción controla el número de nudos posibles (divisiones) en los campos predictores en el pase hacia adelante (primera etapa) del algoritmo. Si se selecciona “Auto”, el número de nudos se calcula en función del número de campos predictores. El número real de nudos en el pase hacia delante a menudo será menor que el máximo permitido.

  • Profundidad de interacción: el nivel de interacción entre los campos predictores.

    • En el caso de 2 campos predictores que tienen una interacción bidireccional entre sí, entonces el efecto que un predictor tiene sobre el objetivo depende del nivel del segundo predictor.

    • En el caso de una interacción de tres vías, el efecto de un campo predictor sobre un objetivo dependerá de los valores de otros dos campos predictores.

    • Se pueden especificar hasta interacciones de cinco vías (una profundidad de interacción de 5). El valor predeterminado de este parámetro se establece en 1 (una suposición implícita de no interacciones entre campos predictores). Aumentar la profundidad de interacción puede aumentar en gran medida el tiempo de ejecución del modelo.

  • Penalización por término o nudo: la función a ser optimizada contiene un componente de penalización para disminuir la posibilidad de que el modelo final sobreajuste los datos de la muestra de estimación. El valor predeterminado es un valor de 2 para un modelo de solo efectos principales, y 3 si se permiten interacciones bidireccionales o superiores. Un valor de -1 no da como resultado ninguna penalización por nudos o términos aplicados, mientras que un valor 0 aplica la penalización predeterminada solo a términos.

  • La mejora mínima en R-cuadrado necesaria para agregar un nudo adicional: cuanto mayor sea el valor de este término, mayor debe ser la mejora en R-cuadrado que debe tener el modelo para poder agregar un nudo.

  • La distancia mínima entre nudos: si se selecciona 0, la distancia mínima permitida se calcula sobre la base de una fórmula, un valor de 1 permite que cualquiera de los valores de una variable predictora sea un nudo (que solo funciona bien si los datos tienen muy poco ruido), de lo contrario es necesario proporcionar un valor numérico entre 0 y 1 que dé la distancia como porcentaje del rango de una variable predictora.

  • Nueva penalidad de variable: el plazo de penalización adicional adjunto a la función objetiva para la adición de una nueva variable al modelo. El valor predeterminado es 0 (ninguno) y este valor puede variar de 0 a 0,5. Al igual que con la penalización por nudo o término, el propósito es controlar el sobreajuste

  • El número máximo de términos padre considerados en cada paso en el pase hacia delante: este término controla el número de términos que se crean en un paso hacia delante, lo que puede acelerar la ejecución. Un valor especial de 0 no pone límites al término, mientras que un número mayor que 0 especifica el número máximo de términos. El valor predeterminado es 20 términos, los valores comunes para esto son 20, 10 y 5.

  • El coeficiente de envejecimiento rápido de MARS: consulta la Sección 3.1 de Friedman (1993) para una explicación de este parámetro.***

  • Realiza un análisis de validación cruzada: esta opción permite una evaluación de validación cruzada para determinar si se ha realizado una depuración suficiente en relación con el método de validación cruzada generalizado utilizado por el algoritmo. Si se selecciona esta opción, el usuario puede especificar el número de ejecuciones de validación cruzada separadas, el número de iteraciones en cada ejecución de validación cruzada, si las muestras de validación cruzada están estratificadas para tener una mezcla comparable de respuestas para un objetivo categórico (por ejemplo, un número comparable de respuestas “sí” y “no” para una variable categórica binaria), y el valor de semilla aleatoria para los números aleatorios generados para crear las muestras.

  • Método de depuración: las opciones son “eliminación hacia atrás”, “ninguno”, “búsqueda exhaustiva”, “selección hacia delante” y “reemplazo secuencial”.

    • La eliminación hacia atrás (el valor predeterminado) comienza con todos los nudos y términos encontrados en el pase hacia delante y, luego elimina primero el término menos predictivo (haciendo los ajustes apropiados a los términos restantes afectados) y, luego compara el efecto en la medida de validación cruzada generalizada en relación con el modelo completo. Si la medida de validación cruzada generalizada no se mejora mediante la eliminación de un término, se devuelve el modelo creado después del pase hacia delante. Si hay una mejora en la medida de validación cruzada generalizada, este término se elimina del modelo y el proceso se repite para los términos restantes. Si en algún momento la eliminación de un término no mejora la medida de validación cruzada generalizada relativa al modelo creado en la última iteración, el proceso se termina.

    • Si la elección es ninguno, todos los términos encontrados en el paso hacia delante se utilizan en el modelo final.

    • En una búsqueda exhaustiva, se examinan todas las combinaciones de los términos encontrados en el paso de búsqueda prospectiva, pero a un costo computacional muy alto.

    • En la eliminación hacia delante se eliminan todos los términos excepto el intercepto y, luego se determina e incluye en el modelo el mejor término de los que se encuentran en el pase hacia delante (asumiendo que mejora la medida de validación cruzada generalizada en relación con un modelo de solo intercepción). Este proceso continúa hasta que no se pueda agregar ningún término adicional que mejore la medida de validación cruzada generalizada.

    • En el reemplazo secuencial, una solución con un número dado de términos tiene un término reemplazado por todos los demás términos restantes posibles encontrados en el paso hacia delante, que no está incluido ya en el conjunto de términos en el paso de depuración. Si se encuentra un nuevo término que mejora la medida de validación cruzada generalizada en relación con el término original, el término original se reemplaza por el nuevo término.

  • Número máximo de términos en el modelo de depuración: si se selecciona 0 (el valor predeterminado) entonces todos los términos que quedan después de aplicar los otros criterios utilizados en el paso de depuración se utilizan en el modelo final, de lo contrario, solo los términos más importantes hasta el número seleccionado se conservan en el modelo final.

Use the Graphics Options tab to set the controls for the graphical output:

  • Plot size: Select inches or centimeters for the size of the graph.

  • Graph Resolution: Select the resolution of the graph in dots per inch: 1x (96 dpi), 2x (192 dpi), or 3x (288 dpi).

    • La resolución más baja crea un archivo más pequeño y es mejor para ver en un monitor.

    • A higher resolution creates a larger file with better print quality.

  • Base font size (points): Select the size of the font in the graph.

Ver la salida

Conecta una herramienta Examinar a cada ancla de salida para ver los resultados.

  • Ancla O: consta de una tabla del modelo serializado con el nombre del modelo.

  • Ancla R: consiste en los fragmentos de informe generados por la herramienta Modelo de acoplamientos (un resumen básico del modelo, un Gráfico de importancia variable, que indica la importancia relativa de los diferentes campos de predicción, un Gráfico de diagnóstico de modelo básico y, opcionalmente, los Gráficos de efectos).

https://en.wikipedia.org/wiki/Multivariate_adaptive_regression_splines

** Freidman, Jerome H., "Multivariate Adaptive Regresion Splines", Universidad de Stanford, agosto de 1990

*** Freidman, Jerome H., "Fast MARS", Informe técnico nro. 102, Departamento de Estadística, Universidad de Stanford, mayo de 1993