Herramienta de campo de sobremuestreo

A menudo es el caso de los datos utilizados para desarrollar un modelo predictivo de clasificación binaria que la variable de destino tiene una proporción mucho mayor de respuestas negativas ("no") y respuestas positivas ("sí"). Por ejemplo, en el caso de campañas de correo directo no focalizadas, no es raro encontrar que el 2% de las posibles perspectivas respondan favorablemente a una apelación, mientras que el 98% no. En este caso, los modelos predictivos tienen dificultades para distinguir la señal del ruido, ya que el costo de clasificar todas las posibles perspectivas en la categoría "no" será casi siempre correcto.

Para evitar este problema, no es raro crear una nueva muestra para el análisis que tenga un porcentaje elevado de respuestas positivas (a menudo se utiliza una división de 50-50 de respuestas positivas y negativas). Esto se logra típicamente incluyendo todas las respuestas positivas y tomando una muestra aleatoria de las respuestas negativas, con el tamaño de la muestra de respuestas negativas determinadas por el porcentaje de respuestas favorables que se desean en la nueva base de datos, que es el enfoque utilizado en esta herramienta.

Conectar una entrada

Un flujo de datos Alteryx, típicamente uno para ser utilizado para crear una clasificación binaria (e.g., sí/no) modelo predictivo.

Configurar la herramienta

  1. Seleccione el campo en el que desea basar el sobremuestreo: el campo que contiene el valor que se debe sobremuestrear, normalmente el campo de la variable de destino en un modelo predictivo de clasificación binaria.
  2. El valor de campo que desea sobremuestrear: el nivel que se va a sobremuestrear, normalmente la respuesta positiva ("sí") en un modelo predictivo de clasificación binaria.
  3. Porcentaje de registros que deben tener el valor deseado en el campo de interés: un valor entero entre 1 y 100. Este valor no debe ser inferior al porcentaje que representa este nivel del campo de interés en los datos originales. Por ejemplo, si el 30% de los datos originales tiene el valor deseado para el campo de interés, el valor de este parámetro no debe establecerse por debajo del 30%.