Ferramenta Limpeza de Dados
Use a ferramenta Limpeza de Dados para corrigir problemas comuns de qualidade dos dados. Você pode substituir valores nulos, remover pontuação, modificar o uso de maiúsculas e muito mais.
Limitações conhecidas
Números com mais de 15 dígitos precisam ser tratados como cadeias de caracteres para que não se perca precisão. Defina o tipo de coluna como uma cadeia de caracteres (String) usando a ferramenta Selecionar.
Componentes da ferramenta
![]() |
Figura: ferramenta Limpeza de Dados com âncoras.
A ferramenta Limpeza de Dados tem duas âncoras.
Âncora de entrada: use a âncora de entrada para conectar os dados que deseja limpar.
Âncora de saída: a âncora de saída faz a saída dos dados limpos.
Configurar a ferramenta
Remover dados nulos
Use estas opções para remover linhas e colunas inteiras de dados nulos:
Remover linhas nulas
Remova todas as linhas que apresentam um valor nulo em todas as colunas.
Remova linhas com valores nulos (a ferramenta não remove linhas com cadeias de caracteres vazias).
Remova apenas as linhas que apresentam um valor nulo em todas as colunas do conjunto.
Selecionar colunas para limpar
Marque as colunas para limpar. Marque Selecionar tudo para selecionar todas as colunas e desmarque para desmarcar todas as colunas.
Dados do tipo cadeia de caracteres
Todas as opções, exceto a de Substituir nulos por 0, se aplicam a dados do tipo cadeia de caracteres. Use várias ferramentas de limpeza de dados no seu fluxo de trabalho para especificar diferentes opções para diferentes colunas.
Substituir nulos
Substituir por espaços vazios (colunas de cadeia de caracteres): substitui valores nulos por cadeias de caracteres vazias. Um espaço vazio é registrado como
" "em vez de[Null]. Essa opção vem selecionada por padrão.Substituir por 0 (colunas numéricas): substitua valores nulos por
0(zero). Essa opção vem selecionada por padrão.
Remover caracteres indesejados
Espaços em branco à esquerda e à direita: remove os espaços em branco à esquerda e à direita. Essa opção vem selecionada por padrão.
Tabulações, quebras de linha e espaços em branco duplicados: substitui qualquer ocorrência de espaços em branco por um só espaço, incluindo terminações de linha, tabulações, espaços múltiplos e outros espaços em branco consecutivos.
Todos os espaços em branco: remove qualquer ocorrência de espaços em branco.
Letras: remove todas as letras, inclusive as que não estão no alfabeto latino, como A b Z À é ö.
Números: remove todos os números.
Pontuação: remove estes caracteres: ! " # $ % & ' ( ) * + , \ - . / : ; < = > ? @ [ / ] ^ _ ` { | } ~
Modificar maiúsculas/minúsculas
Selecione Modificar maiúsculas/minúsculas para alterar o uso de maiúsculas em dados de cadeia de caracteres:
Maiúscula: coloca em maiúsculo todas as letras de uma cadeia de caracteres.
Minúscula: coloca em minúsculo todas as letras de uma cadeia de caracteres.
Cada palavra iniciada por maiúscula: coloca em maiúsculo a primeira letra de todas as palavras em uma cadeia de caracteres.
