Herramienta de comparación de modelos

La herramienta comparación de modelo compara el rendimiento de uno o varios modelos predictivos diferentes en función del uso de una validación o un DataSet de prueba. Genera un informe, una tabla de medidas de error básicas y una tabla de resultados de predicción de cada modelo. La herramienta soporta toda la clasificación binaria, donde la variable de destino tiene sólo dos niveles, como "sí" y "no", clasificación multinomial, donde la variable de destino tiene más de dos niveles, como "Car", "bus", "Train", y "Airplane", y regresión ( variable de objetivo continua) modelos.

Para los problemas de clasificación, el informe contiene la exactitud general, la precisión por clase, la puntuaciónde F1 y la matriz de confusión para cada modelo. Para los modelos de clasificación binaria, las parcelas de diagnóstico de rendimiento, que incluyen comparaciones de cada modelo en forma de un conjunto de curva de elevación, gráfico de ganancia, curva de precisión y memoria, y diagramas de curva de Roc también se reportan. En el caso de los modelos de regresión, el informe incluye la correlación entre los valores previstos y reales, el error de media cuadrada de raíz (RMSE), el error absoluto medio ( Mae), el error porcentual medio (MPE) y el porcentaje absoluto medio error (MAPE) de las predicciones de cada modelo. Debe tenerse en cuenta que las medidas MPE y MAPE no se definen si alguno de los valores de la variable de destino es igual a cero, ya que ambos implican dividir por el valor real de cada observación. En estos casos, el error absoluto ponderado del porcentaje (la suma de los errores absolutos divididos por la suma de los valores reales) se divulga en vez del MAPE, y el MPE es substituido por la suma de los errores sobre la suma de los valores reales. Si bien es fácil llegar a ejemplos inventados donde la suma de los valores objetivo es igual a cero, es poco probable que suceda en la práctica real. También se proporciona un diagrama de valores reales versus predichos para cada modelo.

Tenga en cuenta que aunque esta herramienta admite la comparación de varios modelos, los usuarios también pueden utilizar sólo un modelo y obtener un informe de rendimiento similar al caso de modelo múltiple. La diferencia entre el informe Obtenido de la comparación del modelo y la salida del informe del ancla de R de una herramienta predictiva (e.g. Modelo potenciado) es que el primero utiliza un DataSet de prueba que es diferente del DataSet de entrenamiento que compila el modelo, por lo tanto, produce una evaluación de rendimiento de muestra para el modelo.

Herramienta Galería

Esta herramienta no se instala automáticamente con Alteryx Designer o las herramientas R. Para utilizar esta herramienta, descárgala de Alteryx Analytics Gallery.

Conectar entradas

La herramienta comparación de modelos requiere dos flujos de datos de entrada.

  • M Anchor: una Unión de diferentes modelos generados por cualquier Alteryx de la herramienta predictiva O ancla de salida. Para comparar más de un modelo, Combine varios objetos de modelo juntos en una sola secuencia de datos.
  • D Anchor: el DataSet de prueba, que suele ser diferente del DataSet de entrenamiento que se usó para compilar los modelos.

Configurar la herramienta

La clase positiva en la variable de destino (sólo clasificación binaria, opcional): opcional. Cuando este valor se deja en blanco, el último valor de un tipo alfabético de los nombres de clase se utiliza como clase positiva.

Si la variable de destino adquiere los valores "false" y "true", la clase positiva se convierte en "true" por defecto, ya que cae después de "false" en orden alfabético.

Restricciones de opciones de configuración

Para problemas de regresión, ya que la variable de destino contiene números continuos, el concepto de clase no se aplica. Para los modelos de clasificación multinomiales, el informe proporciona una matriz de confusión completa para cada modelo, por lo que escoger o no escoger una clase positiva no afectará a las salidas. Para los modelos de clasificación binaria, la clase positiva debe ser el resultado en el que se concentre el análisis. Por ejemplo, si el objetivo es determinar qué clientes son más propensos a responder a una campaña de marketing directo, y los valores de respuesta se codifican como "sí" y "no", entonces el enfoque probable será en las respuestas "sí", y esto debe ser seleccionado como el "positivo class "en la comparación de modelos..

Ver la salida

Conecta una herramienta Explorar con cada ancla de salida para ver los resultados.

  • E anclaje: una tabla de medidas de error.
  • P ancla: los valores reales y los varios predichos.
  • R Anchor: informe que contiene las medidas de error y un conjunto de parcelas diagnósticas.