Oversample Field tool

Ferramenta Campo de Superamostragem

Last modified: March 21, 2022

Geralmente, é o caso dos dados usados para desenvolver um modelo preditivo de classificação binária, onde a variável-alvo tem uma proporção muito maior de respostas negativas (não) do que respostas positivas (sim). Por exemplo, no caso de campanhas de mala direta não direcionadas, não é incomum descobrir que 2% dos clientes potenciais respondem favoravelmente a um apelo, enquanto 98% não o fazem. Nesse caso, os modelos preditivos têm dificuldade em distinguir o sinal do ruído, uma vez que o custo de classificar todos os clientes potenciais na categoria "não" quase sempre estará correto.

Para evitar esse problema, não é incomum criar uma nova amostra para análise que tenha uma porcentagem elevada de respostas positivas (geralmente, é usada uma divisão de 50 respostas positivas e 50 negativas). Isso é feito normalmente incluindo todas as respostas positivas e obtendo uma amostra aleatória das respostas negativas ao tamanho da amostra de respostas negativas determinado pela porcentagem de respostas favoráveis desejadas no novo banco de dados, que é a abordagem usada nesta ferramenta.

Conectar uma entrada

Os dados que melhor funcionam com essa ferramenta normalmente são os usados para criar um modelo preditivo de classificação binária (por exemplo, sim ou não).

Configurar a ferramenta

  1. Selecione o campo no qual você deseja basear a sobreamostragem: a coluna que contém o valor a ser superamostrado — geralmente, a coluna da variável-alvo em um modelo preditivo de classificação binária.
  2. O valor do campo que você deseja superamostrar: o nível que deve ser superamostrado — normalmente a resposta positiva ("sim") em um modelo preditivo de classificação binária.
  3. A porcentagem dos registros que deve conter o valor desejado no campo de interesse: um valor inteiro entre 1 e 100. Esse valor não deve ser menor que a porcentagem que esse nível da coluna de interesse representa nos dados originais. Por exemplo, se 30% dos dados originais tiverem o valor desejado para a coluna de interesse, o valor desse parâmetro não deverá ser definido abaixo de 30%.
Esta página foi útil?

Problemas com seu produto Alteryx? Visite a Comunidade Alteryx ou entre em contato com nossa Equipe de Suporte. Não é possível enviar este formulário? Envie-nos um e-mail.