Skip to main content

Ferramenta Criar Amostras

Use a ferramenta Criar Amostras para dividir as linhas de entrada em duas ou três amostras aleatórias. Na ferramenta, você especifica a porcentagem de linhas em cada amostra. Se o total for inferior a 100%, as linhas de saída restantes serão colocadas na amostra de teste (holdout) ou na âncora H.

Configurar a ferramenta

  1. Selecione a Alocação das Linhas. A soma das porcentagens da Amostra 1 e da Amostra 2 deve ser menor ou igual a 100%. Se o total for menor que 100%, a porcentagem restante será enviada para a âncora H:

    • Amostra 1: saída para a âncora E. Essa é a porcentagem dos dados a ser colocada na amostra de treinamento (entre 1% e 99%).

    • Amostra 2: saída para a âncora V. Essa é a porcentagem dos dados a ser colocada na amostra de validação (entre 1% e 99%).

  2. Insira uma semente aleatória: um valor inteiro entre 1 e 1000 que fornece o ponto de partida na geração de números aleatórios. A alteração desse valor altera a amostra na qual uma linha individual dos dados é colocada. A menos que haja um motivo específico para alterar esse valor, o valor padrão de 1 é recomendado.

Visualizar a Saída

Há três âncoras que saem da ferramenta Criar Amostras:

  • Âncora E: o fluxo de saída de treinamento contém uma amostra aleatória das linhas de entrada. A contagem de linhas nesse fluxo é igual à porcentagem do total de linhas especificada na Amostra 1.

  • Âncora V: o fluxo de validação contém uma amostra aleatória das linhas de entrada. A contagem de linhas nesse fluxo é igual à porcentagem do total de linhas especificada na Amostra 2.

  • Âncora H: o fluxo de teste (holdout) inclui todas as linhas que não foram colocadas nas amostras de treinamento e de validação.

Se o número de linhas for ímpar e as configurações para as amostras de treinamento e validação estiverem definidas como 50%, o fluxo de saída da âncora E terá uma linha a mais do que o fluxo da âncora V.