Skip to main content

Ferramenta Limpeza de Dados

Use a ferramenta Limpeza de Dados para corrigir problemas comuns de qualidade dos dados. Você pode substituir valores nulos, remover pontuação, modificar o uso de maiúsculas e muito mais.

Dica

Esta ferramenta tem um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar esse e muitos outros exemplos diretamente no Designer Cloud.

Limitações conhecidas

Números com mais de 15 dígitos precisam ser tratados como cadeias de caracteres para que não se perca precisão. Defina o tipo de coluna como uma cadeia de caracteres (String) usando a ferramenta Selecionar.

Componentes da ferramenta

data-cleansing-with-anchors.png

Figura: ferramenta Limpeza de Dados com âncoras.

A ferramenta Limpeza de Dados tem duas âncoras.

  • Âncora de entrada: use a âncora de entrada para conectar os dados que deseja limpar.

  • Âncora de saída: a âncora de saída faz a saída dos dados limpos.

Configurar a ferramenta

Remover dados nulos

Use estas opções para remover linhas e colunas inteiras de dados nulos:

  • Remover linhas nulas

    • Remova todas as linhas que apresentam um valor nulo em todas as colunas.

    • Remova linhas com valores nulos (a ferramenta não remove linhas com cadeias de caracteres vazias).

    • Remova apenas as linhas que apresentam um valor nulo em todas as colunas do conjunto.

  • Remover colunas nulas

    • Remova todas as colunas que apresentam um valor nulo em todas as linhas.

    • Remova colunas com valores nulos (a ferramenta não remove colunas com cadeias de caracteres vazias).

    • Remova apenas as colunas que apresentam um valor nulo em todas as linhas do conjunto.

    • Uma mensagem é exibida na janela de resultados com o número de colunas que foram removidas.

Selecionar colunas para limpar

Marque as colunas para limpar. Marque Selecionar tudo para selecionar todas as colunas e desmarque para desmarcar todas as colunas.

Dados do tipo cadeia de caracteres

Todas as opções, exceto a de Substituir nulos por 0, se aplicam a dados do tipo cadeia de caracteres. Use várias ferramentas de limpeza de dados no seu fluxo de trabalho para especificar diferentes opções para diferentes colunas.

Substituir nulos

  • Substituir por espaços vazios (colunas de cadeia de caracteres): substitui valores nulos por cadeias de caracteres vazias. Um espaço vazio é registrado como " " em vez de [Null]. Essa opção vem selecionada por padrão.

  • Substituir por 0 (colunas numéricas): substitua valores nulos por 0 (zero). Essa opção vem selecionada por padrão.

Remover caracteres indesejados

  • Espaços em branco à esquerda e à direita: remove os espaços em branco à esquerda e à direita. Essa opção vem selecionada por padrão.

  • Tabulações, quebras de linha e espaços em branco duplicados: substitui qualquer ocorrência de espaços em branco por um só espaço, incluindo terminações de linha, tabulações, espaços múltiplos e outros espaços em branco consecutivos.

  • Todos os espaços em branco: remove qualquer ocorrência de espaços em branco.

  • Letras: remove todas as letras, inclusive as que não estão no alfabeto latino, como A b Z À é ö.

  • Números: remove todos os números.

  • Pontuação: remove estes caracteres: ! " # $ % & ' ( ) * + , \ - . / : ; < = > ? @ [ / ] ^ _ ` { | } ~

Modificar maiúsculas/minúsculas

Selecione Modificar maiúsculas/minúsculas para alterar o uso de maiúsculas em dados de cadeia de caracteres:

  • Maiúscula: coloca em maiúsculo todas as letras de uma cadeia de caracteres.

  • Minúscula: coloca em minúsculo todas as letras de uma cadeia de caracteres.

  • Cada palavra iniciada por maiúscula: coloca em maiúsculo a primeira letra de todas as palavras em uma cadeia de caracteres.