Ferramenta Campo de Superamostragem
Fluxo de trabalho de exemplo
A ferramenta Campo de Superamostragem tem um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar esse e muitos outros exemplos diretamente do Alteryx Designer.
Geralmente, ao desenvolver um modelo preditivo de classificação binária, os dados utilizados apresentam uma proporção muito maior de respostas negativas (não) do que de respostas positivas (sim) para a variável-alvo. Por exemplo, no caso de campanhas de mala direta não direcionadas, não é incomum descobrir que apenas 2% dos clientes potenciais respondem favoravelmente a um apelo, enquanto 98% não o fazem. Nesse caso, os modelos preditivos têm dificuldade em distinguir o que é sinal do que é ruído, uma vez que o modelo quase sempre estará correto se classificar todos os clientes potenciais dentro da categoria "não".
Para evitar esse problema, é comum criar uma nova amostra para análise que tenha uma porcentagem elevada de respostas positivas em relação aos dados originais (geralmente, se usa 50% de respostas positivas e 50% negativas). Isso é geralmente feito incluindo todas as respostas positivas e obtendo uma amostra aleatória das respostas negativas, sendo que o tamanho da amostra de respostas negativas é determinado pela porcentagem de respostas favoráveis desejadas nos dados. Essa é a abordagem usada nesta ferramenta.
Conectar uma entrada
Um fluxo de dados do Alteryx, geralmente um que se deseja utilizar para criar um modelo preditivo de classificação binária (por exemplo, sim/não).
Configurar a ferramenta
Selecione o campo no qual deseja basear a superamostragem : o campo que contém o valor a ser superamostrado — geralmente, o campo de variável-alvo em um modelo preditivo de classificação binária.
O valor que você deseja superamostrar : a categoria que deve ser superamostrada — normalmente, a resposta positiva ("sim") em um modelo preditivo de classificação binária.
A porcentagem dos registros que deve conter o valor desejado no campo de interesse : um valor inteiro entre 1 e 100. Esse valor não deve ser menor que a porcentagem que essa categoria do campo de interesse representa nos dados originais. Por exemplo, se 30% dos dados originais tiverem o valor desejado para o campo de interesse, o valor desse parâmetro não deverá ser definido para um número menor que 30.