As ferramentas de preparação de dados do fluxo de trabalho oferecem suporte à amostragem, limpeza e filtragem dos seus dados no Designer Cloud.
Item | Descrição |
---|---|
Use Auto Column to automatically change the column type and size for efficient storage of string data. | |
Use Create Sample to split the input records into 2 or 3 random samples. | |
Use a ferramenta Limpeza de Dados para corrigir problemas comuns de qualidade dos dados. Você pode substituir valores nulos, remover pontuação, modificar o uso de maiúsculas e muito mais. | |
Use a ferramenta Filtrar para selecionar dados usando uma condição. | |
Use a ferramenta Fórmula para criar uma nova coluna ou atualizar uma coluna existente utilizando uma ou mais expressões para executar uma variedade de cálculos e operações. | |
Use Generate Rows to create new rows of data with an expression. | |
Use Imputation to clean up missing values in your data. | |
Use Multi-Column Binning to tile or bin on multiple columns. | |
Use a ferramenta Fórmula de Múltiplas Colunas para criar ou atualizar várias colunas usando uma única expressão. | |
Use Multi-Row Formula to create and update columns by using row data to create formulas. | |
Use Oversample Column to automatically create balanced samples from imbalanced data for use in statistical modeling. | |
Use a ferramenta Amostra em % Aleatória para retornar um número esperado de linhas que resultam em uma amostra aleatória do fluxo de dados de entrada. | |
Use a ferramenta ID de Linha para criar uma nova coluna e atribuir um identificador exclusivo que aumenta sequencialmente para cada linha nos dados. | |
Use a ferramenta Amostra para limitar o fluxo de dados para um número, porcentagem ou conjunto aleatório de linhas especificado. Além disso, a ferramenta Amostra aplica a configuração escolhida às colunas selecionadas para agrupamento. | |
Use a ferramenta Selecionar para incluir, excluir e reordenar as colunas de dados que passam pelo fluxo de trabalho. | |
Use a ferramenta Selecionar Linhas para retornar linhas e intervalos de linhas especificados, incluindo intervalos descontínuos. Essa ferramenta é útil para solução de problemas e amostragem. | |
Use a ferramenta Ordenar para organizar as linhas de uma tabela em ordem alfanumérica com base nos valores dos campos de dados especificados. | |
Use a ferramenta Bloco para atribuir um valor (bloco) com base em intervalos nos dados. A ferramenta faz isso com base na escolha do usuário, que especifica um de três métodos. | |
Use a ferramenta Exclusivo para distinguir se uma linha é única ou uma duplicata agrupando uma ou mais colunas especificadas e, depois, classificando essas colunas. |