Oversample Field Tool Icon

Ferramenta Campo De Superamostragem

Versão:
2022.3
Last modified: September 25, 2020

Muitas vezes é o caso dos dados utilizados para desenvolver um modelo preditivo de classificação binária que a variável alvo tem uma proporção muito maior de respostas negativas (não) do que respostas positivas (sim). Por exemplo, no caso de campanhas de mala direta não segmentadas, não é incomum descobrir que 2% das potenciais perspectivas respondem favoravelmente a um recurso, enquanto 98% não. Neste caso, os modelos preditivos têm um tempo difícil distinguir o sinal do ruído, uma vez que o custo de classificar todas as potenciais perspectivas na categoria "não" será quase sempre correta.

Para evitar esse problema, não é incomum criar uma nova amostra para análise que tenha uma porcentagem elevada de respostas positivas (muitas vezes uma divisão 50-50 de respostas positivas e negativas é usada). Isso é tipicamente realizado através da inclusão de todas as respostas positivas e da tomada de uma amostra aleatória das respostas negativas, com o tamanho da amostra de respostas negativas determinadas pela porcentagem de respostas favoráveis que são desejadas na nova base de dados, que é a abordagem utilizada nesta ferramenta.

Conectar uma entrada

Um fluxo de dados Alteryx, tipicamente um a ser usado para criar um modelo preditivo de classificação binária (por exemplo, sim/não).

Configurar a ferramenta

  1. Selecione o campo em que deseja basear o oversampling em: O campo que contém o valor a ser superamostrado, normalmente o campo variável alvo em um modelo preditivo de classificação binária.
  2. O valor de campo que você deseja superar: O nível que deve ser supersamplado, tipicamente a resposta positiva ("sim") em um modelo preditivo de classificação binária.
  3. A porcentagem de registros que devem ter o valor desejado no campo de interesse: Um valor inteiro entre 1 e 100. Esse valor não deve ser menor do que a porcentagem que esse nível do campo de interesse representa nos dados originais. Por exemplo, se 30% dos dados originais tiverem o valor desejado para o campo de interesse, o valor deste parâmetro não deverá ser definido abaixo de 30%.
Esta página foi útil?

Problemas com seu produto Alteryx? Visite a Comunidade Alteryx ou entre em contato com nossa Equipe de Suporte. Não é possível enviar este formulário? Envie-nos um e-mail.