Ferramenta Limpeza de Dados Pro
Use a ferramenta Limpeza de Dados Pro para corrigir problemas comuns de qualidade dos dados. Você pode substituir valores nulos, remover pontuação, tags HTML, modificar o uso de maiúsculas e muito mais!
Importante
A ferramenta Limpeza de Dados existente ainda está disponível e continuará a funcionar nos fluxos de trabalho existentes.
Componentes da ferramenta
A ferramenta Limpeza de Dados Pro tem duas âncoras.
Âncora de entrada: use a âncora de entrada para conectar os dados que você deseja limpar.
Âncora de saída: a âncora de saída faz a saída dos dados limpos.
Configurar a ferramenta
Use a janela de configuração da ferramenta Limpeza de Dados Pro para determinar o modo como os problemas de qualidade dos dados são gerenciados.
Remover dados
Marque uma ou ambas as caixas de seleção para remover linhas e colunas inteiras de dados nulos.
Importante
Essas opções são aplicadas após todas as outras etapas de limpeza para garantir uma saída consistente quando combinadas com as opções Substituir por nulo. Se você quiser remover dados nulos da entrada inicial, não use as opções "Remover dados" e "Substituir por nulo" ao mesmo tempo.
Linhas nulas:
remove todas as linhas que apresentam um valor nulo em todas as colunas.
Essa opção não remove linhas que tenham somente valores de cadeia de caracteres (string) vazios.
Uma mensagem mostra quantas linhas foram removidas.
Colunas nulas:
remove todas as colunas que apresentam um valor nulo em todas as linhas.
Essa opção não remove colunas que possuem somente valores de cadeia de caracteres (string) vazios.
Uma mensagem mostrará quantas colunas foram removidas.
Selecionar colunas para limpar
Use esta seção para selecionar as colunas que você deseja limpar. Essas colunas são preenchidas a partir da conexão de entrada da ferramenta. Nome da coluna identifica o nome da coluna e Tipo identifica o tipo de dados da coluna (String, Int, Float, Data etc.).
Você pode usar a caixa de seleção "Selecionar tudo" para selecionar todas as colunas ou marcar as caixas de seleção associadas às colunas individuais para escolher colunas específicas a serem limpas.
Use o campo de entrada "Pesquisar" para pesquisar colunas específicas por nome.
Selecione o ícone de filtro ao lado de Tipo para filtrar essa tabela por colunas com um tipo de dados específico.
Por padrão, todas as colunas são selecionadas e os tipos de dados são incluídos. A coluna "Desconhecido" também é selecionada por padrão e permite novas colunas nos dados.
Remover caracteres
Use esta seção para selecionar as categorias específicas de caracteres que você deseja remover na coluna selecionada na seção anterior. Vários dos exemplos a seguir usam isto como a entrada:
Entrada | Conteúdo |
|---|---|
1 |
|
2 |
|
3 |
|
Tabulações iniciais e finais, quebras de linha e espaços em branco: remove as tabulações, as quebras de linha e os espaços em branco no início e no final de uma cadeia de caracteres (string).
Saída
Conteúdo
1
Olá , Comunidade Alteryx!2
D e safios sema nais3
Documentação de ajuda !Tabulações, quebras de linha e espaços em branco duplicados: substitui todos os espaços consecutivos, tabulações e outros caracteres de espaço em branco em qualquer posição em uma cadeia de caracteres (string) por um único espaço.
Saída
Conteúdo
1
Olá , Comunidade Alteryx!2
D e safios sema nais3
Documentação de ajuda !Todos os espaços em branco: remove todos os espaços em branco em qualquer posição em uma cadeia de caracteres (string).
Saída
Conteúdo
1
Olá,ComunidadeAlteryx!2
Desafiossemanais3
Documentaçãodeajuda!Tag HTML: remove tags HTML, XML e outras entre colchetes angulares. Somente o conteúdo de texto sem formatação dentro do colchete permanece. Por exemplo, uma entrada de
<h1>Alteryx</h1>resulta emAlteryx.Exemplo de entrada:
<div class="ExternalClass683BD308D77E4320B52BF37E72FF5C00"><html> <p>HD - Request to update several receiver fields - agreed to unlock file to allow for receiver edits - changes will be noted in notes field<br></p> </html></div>
Exemplo de saída:
HD - Solicitação para atualizar vários campos receptores - concordou em desbloquear o arquivo para permitir edições no receptor - as alterações serão anotadas no campo de anotações
Importante
O texto que inclui colchetes angulares (< e >) é interpretado como contendo tags. Isso significa que até mesmo conteúdo gravado sem ser HTML usando
< >, por exemplo, comparações ou expressões matemáticas, podem ser afetados.Por exemplo...
Entrada:
3 < 5 e 3 > 1Saída:
3 1: o texto< 5 e 3 >é tratado como uma tag e é removido.
Para evitar isso, considere substituir os colchetes angulares por símbolos alternativos (por exemplo,
<e>ou usar parênteses).Caracteres invisíveis: remove todos os caracteres marcadores de formatação invisíveis, como separadores invisíveis, controle de quebra de palavra e as codificações Unicode U+200B (espaço de largura zero) e U+00AD (hífen condicional). Essa opção é útil quando as células aparecem vazias, mas não estão realmente em branco.
Letras: remove todas as letras, inclusive as que não estão no alfabeto latino, como
A b Z À é ö. Use o campo Exceção para inserir letras que não devem ser removidas, se houver (diferencia maiúsculas de minúsculas, sem separadores). Revise as categorias alfabéticas da ICU em Unicode:Letra maiúscula: A, B, C, Α, Б
Letra minúscula: a, b, c, α, б
Letra com capitalização de título: Dž, Lj, Nj (letras especiais com capitalização de título)
Letra modificadora: ʰ, ˠ, ˡ (letras fonéticas ou modificadoras)
Outra letra: क, 日, ש (letras que não são maiúsculas ou minúsculas)
Números: remove todos os números. Use o campo Exceção para inserir números que não devem ser removidos, se houver. Revise os valores numéricos da ICU em Unicode:
Número de dígito decimal: 0-9, ١, ۲ (dígitos padrão)
Número em letra: Ⅳ, Ⅶ, ↀ (números romanos etc.)
Outro número: ½, ², ¾ (frações, sobrescrito)
Pontuação e caracteres especiais: remove toda a pontuação e caracteres especiais com base nas definições de símbolo e pontuação Unicode usadas pela biblioteca ICU. Use o campo Exceção para inserir símbolos de pontuação que não devem ser removidos.
Em Unicode, todos os caracteres de pontuação se enquadram na categoria de pontuação:
Pontuação conectora: _ , ‿ , ⁀ (sublinhado etc.)
Pontuação de traço: - , — , ‒ (hífen, traço)
Pontuação de abertura: ( , [ , { (colchetes de abertura)
Pontuação de fechamento: ) , ] , } (colchetes de fechamento)
Pontuação inicial de citação: " , ‘ (aspas à esquerda)
Pontuação final de citação: " , ‘ (aspas à direita)
Outra pontuação: ! , ? , ; (diversos)
Os caracteres são categorizados na categoria geral do símbolo, que inclui:
Símbolos matemáticos: caracteres como +, −, = e ∞.
Símbolos de moeda: caracteres como $, €, ¥ e £.
Símbolos modificadores: caracteres como ^, ˜ e acentos usados para transcrição fonética.
Outros símbolos: vários símbolos que incluem ©, ® e caracteres de emoji.
Substituir colunas de cadeia de caracteres (string)
Determine como lidar com problemas de qualidade de dados em colunas de cadeia de caracteres (string).
Substituir nulos por espaços vazios: substitua valores nulos por um valor de cadeia de caracteres vazio. Um espaço vazio é registrado como " " em vez de [Null].
Substituir espaços em branco por nulos: substitui valores de cadeia de caracteres (string) em branco por valores nulos. Um espaço vazio é registrado como " " em vez de [Null]. Esse é o inverso da opção anterior e ajuda a padronizar colunas vazias como nulos verdadeiros.
Substituir colunas numéricas
Determinar como lidar com problemas de qualidade de dados em colunas numéricas.
Substituir nulos por 0: substitui valores nulos por 0 (zero).
Substituir 0 por nulos: substitui 0 (zeros) por valores nulos. Esse é o inverso da opção anterior.
Modificar maiúsculas/minúsculas
Selecione a caixa de seleção Modificar maiúsculas/minúsculas para ativar o menu suspenso "Modificar maiúsculas/minúsculas". Selecione uma das opções:
minúscula: coloca em minúsculo todas as letras de uma cadeia de caracteres (string).
Cada palavra iniciada por maiúscula: coloca em maiúsculo a primeira letra de todas as palavras em uma cadeia de caracteres (string).
MAIÚSCULA: coloca em maiúsculo todas as letras de uma cadeia de caracteres (string).