
Ferramenta Campo De Superamostragem
Muitas vezes é o caso dos dados utilizados para desenvolver um modelo preditivo de classificação binária que a variável alvo tem uma proporção muito maior de respostas negativas (não) do que respostas positivas (sim). Por exemplo, no caso de campanhas de mala direta não segmentadas, não é incomum descobrir que 2% das potenciais perspectivas respondem favoravelmente a um recurso, enquanto 98% não. Neste caso, os modelos preditivos têm um tempo difícil distinguir o sinal do ruído, uma vez que o custo de classificar todas as potenciais perspectivas na categoria "não" será quase sempre correta.
Para evitar esse problema, não é incomum criar uma nova amostra para análise que tenha uma porcentagem elevada de respostas positivas (muitas vezes uma divisão 50-50 de respostas positivas e negativas é usada). Isso é tipicamente realizado através da inclusão de todas as respostas positivas e da tomada de uma amostra aleatória das respostas negativas, com o tamanho da amostra de respostas negativas determinadas pela porcentagem de respostas favoráveis que são desejadas na nova base de dados, que é a abordagem utilizada nesta ferramenta.
Conectar uma entrada
Um fluxo de dados Alteryx, tipicamente um a ser usado para criar um modelo preditivo de classificação binária (por exemplo, sim/não).
Configurar a ferramenta
- Selecione o campo em que deseja basear o oversampling em: O campo que contém o valor a ser superamostrado, normalmente o campo variável alvo em um modelo preditivo de classificação binária.
- O valor de campo que você deseja superar: O nível que deve ser supersamplado, tipicamente a resposta positiva ("sim") em um modelo preditivo de classificação binária.
- A porcentagem de registros que devem ter o valor desejado no campo de interesse: Um valor inteiro entre 1 e 100. Esse valor não deve ser menor do que a porcentagem que esse nível do campo de interesse representa nos dados originais. Por exemplo, se 30% dos dados originais tiverem o valor desejado para o campo de interesse, o valor deste parâmetro não deverá ser definido abaixo de 30%.