Ferramenta de campo de superamostra
Muitas vezes é o caso dos dados usados para desenvolver um modelo de previsão de classificação binária que a variável-alvo tenha uma proporção muito maior de respostas negativas ("não"), então positivas ("Sim"). Por exemplo, no caso de campanhas de mala direta não segmentadas, não é incomum descobrir que 2% das potenciais perspectivas respondem favoravelmente a um recurso, enquanto 98% não. Neste caso, os modelos preditivos têm um tempo difícil distinguir o sinal do ruído, uma vez que o custo de classificar todas as potenciais perspectivas na categoria "não" será quase sempre correta.
Para evitar esse problema, não é incomum criar uma nova amostra para análise que tenha uma porcentagem elevada de respostas positivas (muitas vezes uma divisão 50-50 de respostas positivas e negativas é usada). Isso é tipicamente realizado através da inclusão de todas as respostas positivas e da tomada de uma amostra aleatória das respostas negativas, com o tamanho da amostra de respostas negativas determinadas pela porcentagem de respostas favoráveis que são desejadas na nova base de dados, que é a abordagem utilizada nesta ferramenta.
Conecte uma entrada
Um fluxo de dados Alteryx, tipicamente um a ser usado para criar uma classificação binária (por exemplo, sim/não) modelo preditivo.
Configure a ferramenta
- Selecione o campo que você deseja basear a Superamostragem em: o campo que contém o valor a ser superamostrado, normalmente o campo de variável de destino em um modelo de previsão de classificação binária.
- O valor de campo que você deseja Supersample: o nível que deve ser superamostrado, normalmente a resposta positiva ("Sim") em um modelo de previsão de classificação binária.
- A porcentagem de registros que deve ter o valor desejado no campo de interesse: um valor inteiro entre 1 e 100. Esse valor não deve ser menor do que a porcentagem que esse nível do campo de interesse representa nos dados originais. Por exemplo, se 30% dos dados originais tiverem o valor desejado para o campo de interesse, o valor deste parâmetro não deverá ser definido abaixo de 30%.