Herramienta Validación cruzada
Utiliza la herramienta CrossValidation (validación cruzada) para comparar el rendimiento de uno o más modelos predictivos generados por Alteryx mediante el proceso de validación cruzada. Admite todos los modelos de clasificación y regresión.
Esta herramienta utiliza la herramienta R. Dirígete a Opciones> Descargar herramientas predictivase inicia sesión en el portal de Descargas y licencias de Alteryxpara instalar R y los paquetes utilizados por la herramienta R.
Importante
Esta herramienta no se instala automáticamente con Alteryx Designer o las herramientas R. Para utilizar esta herramienta, descárgala de la Comunidad de Alteryx.
La validación cruzada suele preferirse a otros métodos de evaluación de modelos porque no requiere el uso de un conjunto de prueba independiente y genera estimaciones más sólidas sobre la calidad del modelo.
Para todos los modelos de clasificación, la herramienta brinda la exactitud general, la exactitud por clase y un conjunto de matrices de confusión (uno para cada modelo). Además, la herramienta informa la puntuación F1 y una colección de gráficos de diagnóstico de rendimiento (curva de lift, gráfico de ganancia, curvas de precisión vs. exhaustividad (recall) y curva ROC) para modelos de clasificación binarios. Para los modelos de regresión, la herramienta generalmente proporciona la correlación entre los valores predichos y reales, la raíz del error cuadrático medio (RMSE), el error absoluto medio (MAE), el error porcentual medio (MPE) y el error porcentual absoluto medio (MAPE) de las predicciones de cada modelo. Sin embargo, cuando al menos un valor objetivo está cerca de 0, el MPE y el MAPE no están definidos. En ese caso, el MPE se sustituye por la suma de los errores sobre la suma de los valores reales y el MAPE se sustituye por la suma de los errores absolutos dividida por la suma de los valores reales (es decir, el error porcentual absoluto ponderado). Además, la herramienta siempre proporciona un gráfico de los valores reales frente a los predichos en los casos de regresión.
Conectar entradas
La herramienta CrossValidation requiere 2 entradas:
Ancla M: ya sea un único modelo predicho generado por Alteryx o la unión de 2 o más de estos modelos. Todos estos modelos deben generarse con el mismo conjunto de datos.
Ancla D: conjunto de datos utilizado para generar los modelos anteriores.
Configurar la herramienta
Number of trials (número de pruebas): ingresa el número de veces que quieres que se repita el procedimiento de validación cruzada. Un número menor de pruebas acelera la herramienta, pero un número mayor te ofrece una estimación más sólida de la calidad de los modelos.
Number of folds (número de pliegues): ingresa el número de subconjuntos en los que se van a dividir los datos. También existe una compensación analógica al número de pruebas para el número de pliegues.
Selecciona el tipo de modelo bajo Type of model.
Classification (clasificación): estos modelos predicen categorías como "sí" o "no".
Regression (regresión): estos modelos predicen cantidades numéricas como totales de ventas.
Stratified (estratificada): ¿Se debe utilizar la validación cruzada estratificada? La validación cruzada estratificada es un tipo especial de validación cruzada que crea pliegues con la misma distribución de probabilidad que el conjunto de datos más grande. Por ejemplo, en un conjunto de datos donde el 80 % de los valores objetivos son “No” y el 20 % son “Sí”, cada pliegue tendría aproximadamente un 80 % de respuestas “No” y un 20 % de respuestas “Sí”. La validación cruzada estratificada se recomienda cuando la variable objetivo no está equilibrada.
Name of the positive class (nombre de la clase positiva): (opcional) esta opción de configuración solo es relevante en la clasificación binaria (de dos clases). Algunas de las medidas informadas para la clasificación binaria, como la puntuación F1, requieren una distinción entre una clase positiva (como “Sí”) y una clase negativa (como “No”). Sin embargo, esta opción de configuración no es necesaria. Si la dejas en blanco cuando utilizas la herramienta con modelos de clasificación binarios, la herramienta elegirá una de las clases como la positiva.
Value of seed (valor de semilla): para crear resultados que se puedan reproducir, puedes seleccionar el valor de semilla, o seed, utilizada por el generador de números aleatorios que determina qué registros se clasifican en cada pliegue. Cambiar el valor de semilla cambiará la composición de los pliegues.
Ver la salida
Ancla D: en esta salida, se proporcionan los valores de datos reales, así como sus predicciones.
Ancla F: en esta salida, se informa de varias medidas de ajuste del modelo, dependiendo del tipo de modelo.
Ancla R: un informe resumido que contiene las medidas de ajuste promedio para cada prueba, así como gráficos donde se presenta una curva única para cada modelo.