Ferramenta Criar Amostras
Use a ferramenta Criar Amostras para dividir as linhas de entrada em duas ou três amostras aleatórias. Na ferramenta, você especifica a porcentagem de linhas em cada amostra. Se o total for inferior a 100%, as linhas de saída restantes serão colocadas na amostra de teste (holdout) ou na âncora H.
Configurar a ferramenta
Selecione a Alocação das Linhas. A soma das porcentagens da Amostra 1 e da Amostra 2 deve ser menor ou igual a 100%. Se o total for menor que 100%, a porcentagem restante será enviada para a âncora H:
Amostra 1: saída para a âncora E. Essa é a porcentagem dos dados a ser colocada na amostra de treinamento (entre 1% e 99%).
Amostra 2: saída para a âncora V. Essa é a porcentagem dos dados a ser colocada na amostra de validação (entre 1% e 99%).
Insira uma semente aleatória: um valor inteiro entre 1 e 1000 que fornece o ponto de partida na geração de números aleatórios. A alteração desse valor altera a amostra na qual uma linha individual dos dados é colocada. A menos que haja um motivo específico para alterar esse valor, o valor padrão de 1 é recomendado.
Visualizar a Saída
Há três âncoras que saem da ferramenta Criar Amostras:
Âncora E: o fluxo de saída de treinamento contém uma amostra aleatória das linhas de entrada. A contagem de linhas nesse fluxo é igual à porcentagem do total de linhas especificada na Amostra 1.
Âncora V: o fluxo de validação contém uma amostra aleatória das linhas de entrada. A contagem de linhas nesse fluxo é igual à porcentagem do total de linhas especificada na Amostra 2.
Âncora H: o fluxo de teste (holdout) inclui todas as linhas que não foram colocadas nas amostras de treinamento e de validação.
Se o número de linhas for ímpar e as configurações para as amostras de treinamento e validação estiverem definidas como 50%, o fluxo de saída da âncora E terá uma linha a mais do que o fluxo da âncora V.