Herramienta de validación cruzada
La herramienta de validación cruzada compara el rendimiento de uno o más modelos predictivos generados por Alteryx mediante el proceso de validación cruzada. Admite todos los modelos de clasificación y regresión.
Esta herramienta utiliza la herramienta R. Ve a Opciones > Descargar herramientas predictivas e inicia sesión Portal de licencias y descargas de Alteryx para instalar R y los paquetes utilizados por la Herramienta R.
Herramienta Galería
Esta herramienta no se instala automáticamente con Alteryx Designer o las herramientas R. Para utilizar esta herramienta, descárgala de Alteryx Analytics Gallery.
Entre los modelistas predictivos, la validación cruzada se prefiere con frecuencia sobre otros métodos de evaluación del modelo, ya que no requiere el uso de un conjunto de pruebas separado y genera estimaciones más robustas de la calidad del modelo.
Para todos los modelos de clasificación, la herramienta proporciona la precisión general, la precisión por clase y un conjunto de matrices de confusión (una para cada modelo). Además, la herramienta reporta la puntuación de F1 y una colección de diagramas de diagnóstico de rendimiento (curva de elevación, tabla de ganancia, curvas de precisión versus curva de recuperación y curvatura de Roc) para modelos de clasificación binaria. Para los modelos de regresión, la herramienta generalmente proporciona la correlación entre los valores previstos y reales, el error de media cuadrada de raíz (RMSE), el error absoluto medio ( Mae), el error de porcentaje medio (MPE) y el valor medio absoluto error porcentual (MAPE) de las predicciones de cada modelo. Pero cuando al menos un valor de destino está cerca de 0, el MPE y el MAPE no están definidos. En ese caso, el MPE se sustituye por la suma de los errores sobre la suma de los valores reales, y la suma de los errores absolutos divididos por la suma de los valores reales (es, el error porcentual absoluto ponderado) sustituye al MAPE. Además, la herramienta siempre proporciona un diagrama de valores reales versus predichos en el caso de regresión.
Conectar entradas
La herramienta de validación cruzada requiere dos entradas:
- M ancla: o un solo modelo predicho Alteryx-generado, o la Unión de dos o más tales modelos. Estos modelos deberían haber sido generados utilizando el mismo DataSet.
- D Anchor: el DataSet utilizado para generar los modelos anteriores.
Configurar la herramienta
- Número de ensayos: especifique el número de veces que desearía que se repitiera el procedimiento de validación cruzada. La elección de un número menor de ensayos acelerará la herramienta, pero un número mayor le dará una estimación más robusta de la calidad de sus modelos.
- Número de pliegues: Introduzca el número de subconjuntos para dividir los datos en. También existe una compensación análoga al número de ensayos para el número de pliegues.
-
Seleccione el tipo de modelo.
- Clasificación: estos modelos predicen categorías como sí/no.
- Regresión: estos modelos predicen cantidades numéricas como totales de ventas.
- ¿se debe utilizar la validación cruzada estratificada? : La validación cruzada estratificada es un tipo especial de validación cruzada que crea pliegues con la misma distribución de probabilidad que el DataSet más grande. Por ejemplo, en un conjunto de datos donde el 80% de los valores de destino son "no", y el 20% son "sí", cada doblez tendría aproximadamente 80% "no" respuestas y 20% "sí" unos. La validación cruzada estratificada se recomienda con frecuencia cuando la variable de destino está desbalanceada.
- Nombre de la clase positiva: (opcional) esta opción de configuración sólo es relevante en la clasificación binaria (de dos clases). Algunas de las medidas reportadas para la clasificación binaria, como la puntuación de la F1, requieren una distinción entre una clase positiva (como "sí") y una clase negativa (como "no"). Sin embargo, esta opción de configuración no es necesaria. Si lo deja en blanco al utilizar la herramienta con modelos de clasificación binaria, la herramienta elegirá una de las clases como la positiva.
- Valor de SEED: para crear resultados reproducibles, puede seleccionar la semilla utilizada por el generador de números aleatorios que dicta los registros que se ordenan en los pliegues. Cambiar la semilla cambiará las composiciones de los pliegues.
Ver la salida
- D ancla: esta salida proporciona los valores reales de datos así como sus predicciones.
- F ancla: esta salida reporta varias medidas de ajuste del modelo, dependiendo del tipo de modelo.
- R ancla: un informe resumido que contiene las medidas medias del ajuste para cada ensayo, así como los gráficos donde una sola curva se presenta para cada modelo.