Create Samples tool

Ferramenta Criar Amostras

Last modified: March 21, 2022

Use a ferramenta Criar Amostras para dividir as linhas de entrada em duas ou três amostras aleatórias. Na ferramenta, é possível especificar a porcentagem de linhas desejada nas amostras de treinamento e de validação. Se o total for inferior a 100%, as linhas restantes serão colocadas na amostra de teste (holdout).

Componentes da ferramenta

 

Ferramenta Criar Amostras com quatro âncoras

A ferramenta Criar Amostras tem quatro âncoras:

  • Âncora de entrada: use a âncora de entrada para se conectar aos dados dos quais você deseja criar amostras.
  • Âncora E: o fluxo de saída de treinamento conterá uma amostra aleatória de linhas de entrada.
  • Âncora V: o fluxo de validação conterá uma amostra aleatória de linhas de entrada.
  • Âncora H: o fluxo de teste (holdout) inclui todas as linhas que não foram colocadas nas amostras de treinamento/validação.

Para obter mais informações sobre as âncoras de saída, consulte Visualizar a saída.

 Configurar a ferramenta

  1. Porcentagem para a amostra de treinamento: porcentagem dos dados a ser colocada na amostra de treinamento (entre 1% e 99%).
  2. Porcentagem para a amostra de validação: a porcentagem dos dados a ser colocada na amostra de validação (entre 1% e 99%).

    O total da porcentagem para a amostra de treinamento e da porcentagem para a amostra de validação deve ser inferior ou igual a 100. Se a soma for menor que 100, a porcentagem residual será colocada na amostra de teste. Quando são utilizadas as configurações padrão, 34% das linhas vão para a amostra de treinamento, enquanto as amostras de validação e de teste apresentam, cada uma, 33% das linhas de dados.

  3. Semente aleatória: um valor inteiro entre 1 e 1.000. A alteração desse valor modifica a amostra na qual uma linha individual de dados é colocada. A menos que haja um motivo específico para alterá-lo, o valor padrão recomendado é 1.

 Visualizar a saída

Há três saídas da ferramenta Criar Amostras:

  • Âncora E: o fluxo de saída de treinamento conterá uma amostra aleatória de linhas de entrada. A contagem de linhas neste fluxo é igual à porcentagem do total de linhas especificadas na propriedade de Treinamento acima.
  • Âncora V: o fluxo de validação conterá uma amostra aleatória de linhas de entrada. A contagem de linhas neste fluxo é igual à porcentagem do total de linhas especificadas na propriedade de amostra de validação acima.
  • Âncora H: o fluxo de teste (holdout) inclui todas as linhas que não foram colocadas nas amostras de treinamento/validação.

Se houver um número ímpar de linhas e o treinamento e a validação estiverem definidos como 50%, o fluxo de saída de treinamento terá uma linha a mais do que o de validação.

Esta página foi útil?

Problemas com seu produto Alteryx? Visite a Comunidade Alteryx ou entre em contato com nossa Equipe de Suporte. Não é possível enviar este formulário? Envie-nos um e-mail.