Herramienta Modelo aumentado
La herramienta Modelo aumentado crea modelos de regresión amplificados generalizados basados en métodos de Aumento de gradiente. Los modelos se crean mediante la incorporación en serie de modelos de árbol de decisión simples a un conjunto de modelos para minimizar una función de pérdida adecuada. Estos modelos utilizan un método de aprendizaje estadístico que:
- autodetermina qué subconjunto de campos predice mejor un campo objetivo.
- es capaz de capturar interacciones y relaciones no lineales entre campos.
- puede abordar automáticamente una amplia gama de problemas de regresión y clasificación.
Utiliza la herramienta Modelo aumentado para la clasificación, el recuento de datos y los problemas de regresión de destino continuo.
Esta herramienta utiliza la herramienta R. Ve a Opciones > Descargar herramientas predictivas e inicia sesión Portal de licencias y descargas de Alteryx para instalar R y los paquetes utilizados por la Herramienta R. Consulta Descargar y usar herramientas predictivas.
La herramienta Modelo aumentado requiere una secuencia de datos de entrada con:
- Un campo objetivo de interés
- Dos o más campos predictores
Los paquetes utilizados en la estimación del modelo varían en función de la secuencia de datos de entrada.
- Una secuencia de datos Alteryx utiliza la función gbm R de código abierto.
- Una secuencia de metadatos XDF, procedente de una Herramienta Datos de entrada XDF o Herramienta Datos de salida XDF, utiliza la función RevoScaleR rxBTrees.
- Los datos de una secuencia de datos de SQL Server en base de datos utilizan la función rxBTrees.
- La instalación de Microsoft Machine Learning Server aprovecha la función RevoScaleR rxBTrees para tus datos en las bases de datos de SQL Server o Teradata. Esto requiere que el equipo y el servidor locales se configuren con Microsoft Machine Learning Server, que permite el procesamiento en el servidor de base de datos y da como resultado una mejora significativa del rendimiento.
Rendimiento del algoritmo
En comparación con las funciones de código abierto R, la función basada en RevoScaleR puede analizar conjuntos de datos mucho más grandes. Sin embargo, la función basada en RevoScaleR debe crear un archivo XDF, que aumenta el costo general, utiliza un algoritmo que realiza más pases sobre los datos, aumenta el tiempo de ejecución y no puede crear algunas salidas de diagnóstico del modelo.
- Parámetros obligatorios: los campos básicos necesarios para generar un modelo aumentado.
- Nombre del modelo: nombre para el modelo al que se puede hacer referencia con otras herramientas. El nombre o el prefijo del modelo debe comenzar con una letra y puede contener letras, números y caracteres especiales como el punto (".") y el guión bajo ("_"). R distingue entre mayúsculas y minúsculas.
- Seleccionar el campo de destino: el campo de datos que se deseas predecir, también conocido como una respuesta o variable dependiente.
- Seleccionar los campos predictivos: los campos de datos utilizados para influir en el valor de la variable de destino, también conocida como característica o variable independiente. Se requieren dos campos predictivos como mínimo, pero no hay límite superior en el número de campos predictivos seleccionados. La variable destino en sí no debe utilizarse en el cálculo del valor objetivo, por lo que el campo destino no debe incluirse en los campos predictivos.
- ¿Utilizar ponderaciones de muestreo en la estimación del modelo?: una opción que te permite seleccionar un campo que pondera la importancia colocada en cada registro al crear una estimación de modelo.
Si se utiliza un campo como predictor y como ponderación de muestra, el campo variable de ponderación de salida se antepone con Right_.
- Seleccionar el campo de ponderación de muestreo: el campo utilizado para ponderar los registros.
- ¿Incluir gráficos de efecto marginal?: una opción para incluir gráficos en el informe que muestran la relación entre la variable predictora y el objetivo, haciendo un promedio sobre el efecto de otros campos predictores.
- El nivel mínimo de importancia de un campo que se debe incluir en los gráficos: un valor porcentual que indica el poder predictivo mínimo de una variable que se incluirá en el gráfico de efecto marginal. Un porcentaje mayor reduce el número de gráficos de efecto marginal producidos.
- Personalización del modelo: ajustes opcionales que personalizan el modelo de salida basándose en el objetivo y cómo se administran los árboles de decisión.
- Especificar el tipo de destino y la distribución de la función de pérdida: la categoría de datos en el campo destino y la función asociada que funciona para optimizar la creación del modelo.
- Destino continuo: un destino numérico en el que cualquier valor único determinado comprende un pequeño porcentaje de las instancias totales, como las ventas anuales por tienda.
Para un destino continuo, minimiza una función de pérdida basada en una de las siguientes distribuciones: - Gausiano (pérdida de error cuadrático)
- Laplace (pérdida de valor absoluta)
- pérdida de distribución t
- Conteo (número entero) de destino: un destino numérico para el que la mayoría de los valores únicos comprenden un gran porcentaje de las instancias totales, como el número de visitas al consultorio de un médico que hace una persona en un año.
Para un conteo de destino, minimiza una función de pérdida basada en la distribución Poisson.
- Binario (dos resultados) categórico: un objetivo categórico con dos resultados posibles, como la categorización sí-no.
Para un objetivo binario categórico, minimiza una función de pérdida basada en una de las siguientes distribuciones:
- Bernoulli (regresión logística)
- AdaBoost (pérdida exponencial)
- Multinómico (al menos tres resultados) categórico: campos de objetivo categóricos con un número limitado de resultados discretos, como la categorización A, B o C.
Para un destino categórico multinómico, minimiza una función de pérdida basada en una función de pérdida logística multinómica, una generalización multinomial de la función de pérdida de Bernoulli.
- La cantidad máxima de árboles presentes en el modelo: el número de árboles de decisión que el algoritmo puede incluir en el modelo final. El valor por defecto es 4000. Un mayor número de árboles aumenta el tiempo de funcionamiento.
- Método para determinar la cantidad final de árboles presentes en el modelo: el método utilizado para determinar el número de árboles de decisión que capturan adecuadamente el comportamiento predictivo sin sobreajustar los datos de la muestra.
- Validación cruzada: método de validación con uso eficiente de la información disponible. Recomendado en casos con datos limitados.
- Cantidad de plegamientos de validación cruzada: el número de submuestras en los que se dividen los datos para su validación o formación. El valor por defecto es 5. Los valores comunes son 5 y 10. En un caso con 5 plegamientos, los datos se dividen en 5 submuestras únicas y se crean 5 modelos diferentes, cada uno utiliza datos de 4 de las submuestras. La submuestra final se retiene de la creación del modelo y se utiliza para probar la precisión de la predicción.
- Cantidad de núcleos de la máquina que utilizarán validación cruzada: el número de núcleos de máquina utilizados en el análisis. El valor por defecto es 1. El número utilizado siempre debe ser menor que el número de núcleos disponibles. Para aumentar la velocidad de cómputo, aumenta el número de núcleos utilizados.
- Muestra de prueba(validación): método de validación que saca muestras de los datos de capacitación. Recomendada en casos con muchos registros.
- El porcentaje presente en la muestra de estimación (capacitación): el porcentaje de registros utilizados en la muestra de capacitación, con el resto utilizado en la muestra de prueba. El valor por defecto es 50. Los valores comunes son 50% y 75%. Si el 50% de los registros se utilizan en la muestra de capacitación, el 50% restante se utiliza para probar la precisión de la predicción.
- Instancias no seleccionadas: método de validación que utiliza registros excluidos en la creación de modelos.
- La fracción de las observaciones que se utiliza en la muestra de instancias no seleccionadas: un porcentaje de muestreo utilizado para guiar el número apropiado de árboles a incluir en el modo para evitar el sobreajuste. El valor predeterminado es 50%. Los valores comunes están entre 25 y 50%.
- Contracción: un valor entre 0 y 1 utilizado para colocar la ponderación en cada árbol añadido al modelo. El valor predeterminado es 0,0020. Los valores más pequeños permiten incluir más árboles en el modelo, lo que aumenta el tiempo de funcionamiento.
Un pequeño valor de contracción puede requerir que el valor de Establecer el número máximo de árboles de decisión aumente para garantizar un número óptimo de árboles.
- Profundidad de interacción: el nivel de interacción entre los campos predictores. Por ejemplo, una interacción de tres vías indica que un predictor depende de otros dos predictores para determinar el impacto en el campo destino. El valor predeterminado es lineal, con la hipótesis de que no hay interacciones entre los campos predictores. El aumento de la profundidad aumenta el tiempo de funcionamiento.
- Cantidad mínima de objetos requerida en cada nodo de árbol: un parámetro que comprueba si un árbol de decisión tiene el tamaño suficiente antes de permitir la incorporación de otro árbol de decisión. El valor predeterminado es 10. Aumentar el valor resultará en árboles de decisión más pequeños.
- Valor de propagación aleatoria: valor que determina la secuencia de selección para el muestreo aleatorio. Esto deriva en la selección de los mismos registros dentro de los datos, aunque el método de selección es aleatorio y no depende de los datos. Cambia el valor para cambiar la secuencia de las selecciones aleatorias.
- Opciones de gráficos: la configuración del gráfico de salida. Los valores predeterminados se utilizan a menos que se personalicen.
- Tamaño del gráfico: el tamaño del gráfico de salida. Selecciona las unidades y, a continuación, define los valores de anchura y altura.
-
Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi). La resolución más baja crea un archivo más pequeño y es el mejor para la visión en un monitor. Una resolución más alta crea un archivo más grande con una mejor calidad de impresión.
- Tamaño de fuente base (puntos): tamaño de fuente en puntos.
Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.
Estas opciones se pueden utilizar para modificar la configuración del modelo.
La herramienta Modelo aumentado admite el procesamiento en base de datos de Microsoft SQL Server 2016. Consulta Introducción a En base de datos. para obtener más información sobre las herramientas y el soporte en base de datos.
Para acceder a la versión en base de datos de la herramienta Modelo aumentado:
- Coloca una herramienta en base de datos en el lienzo. La herramienta Modelo aumentado cambia automáticamente al Modelo aumentado en base de datos.
- Haz clic con el botón derecho en la herramienta Modelo aumentado, apunta a Elegir la versión de la herramienta y selecciona el Modelo aumentado en base de datos.
Consulta Analítica Predictiva para obtener más información sobre el soporte predictivo en base de datos.
- Parámetros obligatorios: los campos básicos necesarios para generar un modelo aumentado.
- Cada modelo creado requiere un nombre que pueda ser referenciado por otras herramientas. El procesamiento en base de datos permite dos métodos de creación de nombres de modelos:
- Nombre del modelo específico: nombre del modelo determinado por el usuario. El nombre o el prefijo del modelo debe comenzar con una letra y puede contener letras, números y caracteres especiales como el punto (".") y el guión bajo ("_"). R distingue entre mayúsculas y minúsculas.
- Nombre del modelo generado: el nombre del modelo se genera automáticamente.
- Seleccionar el campo de destino: el campo de datos que se deseas predecir, también conocido como una respuesta o variable dependiente.
- Seleccionar los campos predictivos: los campos de datos utilizados para influir en el valor de la variable de destino, también conocida como característica o variable independiente. Se requieren dos valores predictivos como mínimo, pero no hay límite superior en el número de valores predictivos utilizados. La variable destino en sí no debe utilizarse en el cálculo del valor objetivo, por lo que el campo destino no debe incluirse en los campos predictivos.
-
¿Utilizar ponderaciones de muestreo en la estimación del modelo?: una opción que te permite seleccionar un campo que pondera la importancia colocada en cada registro al crear una estimación de modelo.
Si se utiliza un campo como predictor y como ponderación de muestra, el campo variable de ponderación de salida se antepone con Right_.
- Seleccionar el campo de ponderación de muestreo: el campo utilizado para ponderar los registros.
- Personalización del modelo: ajustes opcionales que personalizan el modelo de salida basándose en el objetivo y cómo se administran los árboles de decisión.
- Especificar el tipo de destino y la distribución de la función de pérdida:
- Destino continuo: un destino numérico en el que cualquier valor único determinado contiene un pequeño porcentaje de las instancias totales, como las ventas anuales por tienda.
Para un destino continuo, minimiza una función de pérdida basada en una de las siguientes distribuciones:
- Binario (dos resultados) categórico: un destino categórico con dos resultados posibles, como la categorización sí-no.
Para un destino binario categórico, minimiza una función de pérdida basada en las distribuciones de Bernoulli.
- Multinómico: un campo de destino categórico con un número limitado de resultados discretos, como la categorización A, B o C.
Para un destino categórico multinómico, minimiza una función de pérdida basada en una función de pérdida logística multinómica, una generalización multinomial de la función de pérdida de Bernoulli.
- Destino continuo: un destino numérico en el que cualquier valor único determinado contiene un pequeño porcentaje de las instancias totales, como las ventas anuales por tienda.
- La cantidad máxima de árboles presentes en el modelo: el número de árboles de decisión que el algoritmo puede incluir en el modelo final. El valor por defecto es 4000. Un mayor número de árboles aumenta el tiempo de funcionamiento.
- La fracción de las observaciones que se utiliza en la muestra de instancias no seleccionadas: un porcentaje de muestreo utilizado para reducir el número de árboles de decisión incluidos con una evaluación no seleccionada. El valor predeterminado es 50%. Los valores comunes están entre 25 y 50%.
- Tasa de aprendizaje (o contracción): un valor entre 0 y 1 utilizado para colocar la ponderación en cada árbol agregado al modelo. El valor predeterminado es 0,0020. Los valores más pequeños permiten incluir más árboles en el modelo, lo que aumenta el tiempo de funcionamiento.
Un pequeño valor de contracción puede requerir que el valor de Establecer el número máximo de árboles de decisión aumente para garantizar un número óptimo de árboles.
- Tamaño del árbol: para imitar los valores predeterminados de tamaño de árbol en la herramienta estándar Modelo aumentado, utiliza los parámetros predeterminados. Para obtener más información, consulta controles rxBTrees.
- maxDepth: profundidad máxima de cualquier nodo de árbol [1000]
- minBucket: cantidad mínima de observaciones requerida en un nodo (u hoja) del terminal [10]
- minSplit: la cantidad mínima de observaciones que debe haber en un nodo antes de intentar una división [minBucket * 2]
- Valor de propagación aleatoria: valor que determina la secuencia de selección para el muestreo aleatorio. Esto deriva en la selección de los mismos registros dentro de los datos, aunque el método de selección es aleatorio y no depende de los datos. Cambia el valor para cambiar la secuencia de las selecciones aleatorias.
- Opciones de gráficos: la configuración del gráfico de salida. Los valores predeterminados se utilizan a menos que se personalicen.
- Tamaño del gráfico: selecciona las unidades y, a continuación, define los valores de anchura y altura.
-
Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi). La resolución más baja crea un archivo más pequeño y es el mejor para la visión en un monitor. Una resolución más alta crea un archivo más grande con una mejor calidad de impresión.
- Tamaño de fuente base (puntos): tamaño de fuente en puntos.
Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.
Estas opciones se pueden utilizar para modificar la configuración del modelo.
Conecta una herramienta Explorar con cada ancla de salida para ver los resultados.
- Ancla O: emite el nombre del modelo y el tamaño en la ventana Resultados.
- Ancla R: muestra un informe del modelo que incluye un resumen y cualquier parcela configurada.