Herramienta Campo de sobremuestreo
Ejemplo de cada herramienta
Campo de sobremuestreo tiene un ejemplo de cada herramienta. Visita Flujos de trabajo de muestra para aprender cómo acceder a este y muchos otros ejemplos directamente en Alteryx Designer.
Sucede a menudo con los datos que se utilizan para desarrollar un modelo predictivo de clasificación binaria que la variable objetivo tiene una proporción mucho mayor de respuestas negativas (no) que las positivas (sí). Por ejemplo, en el caso de campañas de correo directo no dirigidas, no es raro encontrar que el 2 % de los clientes potenciales responden favorablemente a una solicitud, mientras que el 98 % no lo hace. En este caso, con los modelos predictivos existen dificultades para distinguir la señal del ruido, ya que el costo de clasificar todos los posibles clientes en la categoría “no” casi siempre será correcto.
Para evitar este problema, no es raro crear una nueva muestra para un análisis que tenga un porcentaje elevado de respuestas positivas (a menudo se utiliza una división de 50/50 de respuestas positivas y negativas). Esto se logra normalmente si se incluyen todas las respuestas positivas y se toma una muestra aleatoria de las respuestas negativas, con el tamaño de la muestra de respuestas negativas determinado por el porcentaje de respuestas favorables que se desean en la nueva base de datos, que es el enfoque que se utiliza en esta herramienta.
Conectar una entrada
Un flujo de datos de Alteryx, normalmente uno que se utiliza para crear un modelo predictivo de clasificación binaria (por ejemplo, sí/no).
Configurar la herramienta
Selecciona el campo en el que deseas basar el sobremuestreo : el campo que contiene el valor que se va a sobremuestrear, normalmente el campo de la variable objetivo en un modelo predictivo de clasificación binaria.
El valor del campo que deseas sobremuestrear : el nivel que se va a sobremuestrear, normalmente la respuesta positiva (“sí”) en un modelo predictivo de clasificación binaria.
El porcentaje de registros que deberían tener el valor deseado en el campo de interés : un valor de número entero entre el 1 y el 100. Este valor no debe ser inferior al porcentaje que representa este nivel del campo de interés en los datos originales. Por ejemplo, si el 30 % de los datos originales tiene el valor deseado para el campo de interés, el valor de este parámetro no debe ser inferior al 30 %.