Herramienta modelo de spline

La herramienta modelo de spline proporciona el algoritmo de regresión adaptable multivariante splines (o Marte) de Friedman. * este método es un modelo moderno de aprendizaje estadístico que: (1) autodetermina qué subconjunto de campos predicen mejor un campo de interés de la meta; (2) es capaz de capturar relaciones y interacciones altamente no lineales entre campos; y puede abordar automáticamente una amplia gama de problemas de regresión y clasificación de una manera que puede ser transparente para el usuario (el usuario puede hacer tan poco como especificar un campo de destino y un conjunto de campos predictor, pero la herramienta puede ser ampliamente afinado por avanzado usuarios).

La herramienta es aplicable a una amplia gama de problemas, tales como clasificación, datos de conteo y problemas continuos de regresión de destino. El método utiliza un enfoque de dos pasos para desarrollar un modelo. En el primer paso (conocido como el paso adelante, y es similar al algoritmo de particionado recursivo utilizado en la herramienta árbol de decisión) las variables que más importan al predecir el destino determinado, y los "puntos divididos" apropiados (conocidos como "nudos") en las variables se encuentran. Sin embargo, a diferencia de un árbol de decisión, una línea entre los nudos adyacentes (llamado término) es apta en lugar de usar saltos discretos como se hace en los árboles de decisión. Esto da como resultado la construcción de una función lineal tramos para cada variable que puede aproximarse estrechamente a cualquier relación entre el objetivo y las variables predictoras. El segundo paso (conocido como el retroceso o el paso de poda) elimina algunos de los nudos en las variables (alargando el segmento de línea en los términos restantes) para minimizar la posibilidad de que el modelo esté sobreajustando la muestra de estimación y capturando la muestra de estimación ruido en lugar de la señal subyacente.

Esta herramienta utiliza la herramienta R. Ve a Opciones > Descargar herramientas predictivas e inicia sesión Portal de licencias y descargas de Alteryx para instalar R y los paquetes utilizados por la Herramienta R. Consulta Descargar y usar herramientas predictivas.

Datos de entrada

Un flujo de datos Alteryx que incluye un campo de interés de destino junto con uno o más campos de predictores posibles.

Configurar la herramienta

Utilice la ficha parámetros requeridos para establecer los controles obligatorios para el modelo de spline.

  • Nombre del modelo: cada modelo debe recibir un nombre para poder identificarlo posteriormente. Los nombres de los modelos deben comenzar con una letra y pueden contener letras, números y el período de caracteres especiales (".") y subrayado ("_"). No se permiten otros caracteres especiales, y R distingue entre mayúsculas y minúsculas.
  • Seleccione el campo destino: Seleccione el campo de la secuencia de datos que desea predecir.
  • Seleccione los campos predictor: Elija los campos de la secuencia de datos que cree que "causan" cambios en el valor de la variable de destino.

    Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.

  • Incluir parcelas de efectos?: si se comprueba, entonces se producirán las parcelas de efectos que muestran gráficamente la relación entre la variable predictora y el destino a niveles fijos (la mediana para predictores numéricos, el primer nivel para factores) de otros predictores Fields. Hay opciones para mostrar sólo los campos que tienen un efecto principal en el destino, sólo los efectos de interacción bidireccional entre los campos mediante una trama de perspectiva, o los efectos principales y las interacciones de dos vías.

Utilice la ficha modelo de personalización (opcional) para realizar ajustes más específicos en el modelo.

  • Especifique el tipo de destino y la familia GLM: hay cinco tipos de campos de destino admitidos:

    • Objetivos continuos (por ejemplo, objetivos numéricos donde cualquier valor único dado tiene un porcentaje relativamente pequeño de las instancias totales)
    • Objetivos distribuidos gamma (objetivos numéricos estrictamente positivos que tienen un alto porcentaje de valores de respuesta bastante bajos, pero un pequeño porcentaje de valores relativamente altos)
    • oBjetivos "Count" (por ejemplo, destinos de valor entero para los que la mayoría de los valores únicos tienen un porcentaje bastante alto de las instancias totales, por ejemplo, el número de visitas a una oficina de doctores que una persona hace en un año)
    • Objetivos categóricos binarios (por ejemplo, campos de destino de la variedad "sí/no")
    • Objetivos categóricos multinomiales (por ejemplo, campos de destino con un número limitado de resultados discretos, como "a", "B" o "C")

    Cada tipo de campo de destino puede tener una o más funciones de distribución asociadas posibles (que está relacionada con la medida que el algoritmo está intentando minimizar).

    • Los objetivos continuos no pueden tener distribución explícita ni distribución de Gauss (es decir, normal).
    • En el caso de un objetivo distribuido gamma, la elección es la función de enlace a utilizar (la relación entre los medios de la distribución y el predictor lineal).
    • Los destinos Count (integer) minimizan una función de pérdida basada en la distribución de Poisson y utilizan una función log (preferida) o vínculo de identidad.
    • Los blancos categóricos binarios pueden utilizar un logit (también usado en regresión logística clásica), un Probit, o una función complementaria del acoplamiento del log-log.
    • Una respuesta categórica multinomial es tratada de una manera no estándar. En concreto, en lugar de estimar un verdadero modelo multinomial, se estima un conjunto de modelos binarios (utilizando una función de enlace logit). Por ejemplo, si las respuestas posibles son "a", "b", o "c", lo que se estima es un modelo de: "a" contra cualquier otra opción, "b" contra cualquier otra opción, y "c" contra cualquier otra opción.
  • Escale la variable de destino: si la variable de destino es una variable continua, y esta opción está seleccionada, entonces será sometida a una transformación de z-score (media cero, desviación estándar de una) para ayudar con la estabilidad numérica en el paso adelante (primera etapa) del algoritmo.
  • El número máximo de nudos o determinar automáticamente (auto): esta opción controla el número de nudos posibles (splits) en los campos predictor en el paso adelante (primera etapa) del algoritmo. Si se selecciona "auto", el número de nudos se calcula basándose en el número de campos predictores. El número real de nudos en el paso de avance a menudo será menor que el máximo permitido.
  • Profundidad de interacción: el nivel de interacción entre los campos predictores.
    • En el caso de dos campos predictores que tienen una interacción bidireccional entre sí, el efecto que un predictor tiene sobre el objetivo depende del nivel del segundo predictor.
    • En caso de una interacción de tres vías, entonces el efecto de un campo predictor en un destino dependerá de los valores de otros dos campos predictores.
    • Se pueden especificar hasta interacciones de cinco vías (una profundidad de interacción de 5). El valor predeterminado de este parámetro se establece en 1 (una hipótesis implícita de no interacciones entre los campos predictores). El aumento de la profundidad de interacción puede aumentar considerablemente el tiempo de ejecución del modelo.
  • Penalización por término o nudo: la función que se va a optimizar contiene un componente de penalización para disminuir la posibilidad de que el modelo final se ajuste a los datos de la muestra de estimación. El valor predeterminado es 2 para un modelo de sólo efectos principales y 3 si se permiten interacciones de dos o más niveles. Un valor de-1 no resulta en ninguna penalidad por los nudos o términos que se aplican, mientras que un valor 0 aplica la pena por defecto sólo a los términos.
  • La mejora mínima en r-cuadrado necesitó agregar un nudo adicional: cuanto más alto es el valor de estos términos, mayor es la mejora en r-cuadrado necesita ser para el modelo con el fin de agregar un nudo.
  • La distancia mínima entre nudos: si se selecciona 0 entonces la distancia mínima permitida se calcula en base a una fórmula, un valor de 1 permite que cualquiera de los valores de una variable predictora sea un nudo (que sólo funciona bien si los datos tienen muy poco ruido) , de lo contrario debe proporcionarse un valor numérico entre 0 y 1 que da la distancia como porcentaje del rango de una variable predictora.
  • Nueva penalidad variable: el término penal adicional anexado a la función objetiva para la adición de una nueva variable al modelo. La opción predeterminada es 0 (None) y este valor puede variar entre 0 y 0,5. Como con la pena por nudo o término, el propósito es controlar para la sobreconexión
  • El número máximo de términos primarios considerados en cada paso del pase delantero: este término controla el número de términos que se crean en un pase de avance, que puede acelerar la ejecución. Un valor especial de 0 no pone límites al término, mientras que un número mayor que 0 especifica el número máximo de términos. El valor predeterminado es 20 términos, los valores comunes para esto son 20, 10 y 5.
  • El coeficiente de envejecimiento de Marte rápido: consulte la sección 3,1 de Friedman (1993) para obtener una explicación de este parámetro. * * *
  • Realizar un análisis de validación cruzada: esta opción permite una evaluación de validación cruzada en cuanto a si se ha producido suficiente poda en relación con el método generalizado de validación cruzada utilizado por el algoritmo. Si se selecciona esta opción, el usuario puede especificar el número de ejecuciones de validación cruzada separadas, el número de pliegues en cada ejecución de validación cruzada, si las muestras de validación cruzada se estratifican para tener una combinación de respuestas comparable para un destino categórico ( por ejemplo, un número comparable de respuestas "sí" y "no" para una variable binaria categórica), y el valor de semilla aleatorio para los números aleatorios generados para crear las muestras.
  • El método de poda: las opciones son "eliminación hacia atrás", "ninguno", "búsqueda exhaustiva", "selección hacia adelante", y "reemplazo secuencial".
    • La eliminación hacia atrás (el valor predeterminado) comienza con todos los nudos y términos encontrados en la pasada de avance, y luego elimina el término menos predictivo primero (haciendo ajustes apropiados a los términos restantes afectados), y luego compara el efecto sobre el medida de validación cruzada relativa al modelo completo. Si la medida de validación cruzada generalizada no se mejora mediante la eliminación de un término, el modelo creado después de que se devuelva el paso de avance. Si hay una mejora en la medida de validación cruzada generalizada, este término se elimina del modelo y el proceso se repite para los términos restantes. Si en cualquier momento la eliminación de un término no mejora la medida de validación cruzada generalizada en relación con el modelo creado en la última iteración, el proceso se termina.
    • Si la opción no es ninguna, todos los términos encontrados en el paso adelante se utilizan en el modelo final.
    • En búsqueda exhaustiva, se examinan todas las combinaciones de los términos encontrados en el paso de búsqueda de avance, pero a un costo computacional muy alto.
    • En la eliminación hacia delante todos los términos excepto la interceptación se eliminan y, a continuación, el mejor término de los que se encuentran en el paso adelante se determina e incluye en el modelo (asumiendo que mejora la medida de validación cruzada generalizada en relación con un modelo de intercepción sólo). Este proceso se continúa hasta que no se puede agregar ningún término adicional que mejore la medida de validación cruzada generalizada.
    • En el reemplazo secuencial, una solución con un número dado de términos tiene un término substituido por todos los otros términos restantes posibles encontrados en el paso delantero, que no se incluye ya en el sistema de términos en el paso de la poda. Si se encuentra un nuevo término que mejore la medida de validación cruzada generalizada en relación con el término original, el término original se sustituirá por el nuevo término.
  • El número máximo de términos en el modelo podado: si se selecciona 0 (el valor predeterminado) entonces todos los términos que permanecen después de que se aplican los otros criterios utilizados en la pasada de poda se utilizan en el modelo final, de lo contrario, sólo los términos más importantes hasta el número seleccionado son r etained en el modelo final.

Utilice la ficha opciones gráficas para definir los controles de la salida gráfica.

  • Tamaño de la parcela: seleccione pulgadas o centímetros para el tamaño del gráfico.
  • Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi). La resolución más baja crea un archivo más pequeño y es el mejor para la visión en un monitor. Una resolución más alta crea un archivo más grande con una mejor calidad de impresión.

  • Tamaño de fuente base (puntos): seleccione el tamaño de la fuente en el gráfico.

Ver la salida

Conecta una herramienta Explorar con cada ancla de salida para ver los resultados.

  • O Anchor: consiste en una tabla del modelo serializado con su nombre de modelo.
  • R Anchor: consiste en los fragmentos de informe generados por la herramienta modelo de Spline: un resumen de modelo básico, una parcela de importancia variable (que indica la importancia relativa de los diferentes campos predictores), un diagrama de diagnóstico de modelo básico y (opcionalmente) el Parcelas de efectos.

*https://en.wikipedia.org/wiki/Multivariate_adaptive_regression_splines

* *Freidman, Jerome H., "curvas de regresión adaptativa multivariante", Universidad de Stanford, agosto 1990

Freidman, Jerome H., "Fast Mars", informe técnico no. 102, Departamento de estadística, Universidad de Stanford, mayo 1993