Skip to main content

Strumento Pulizia dei dati

Utilizza Pulizia dei dati per risolvere i problemi comuni di qualità dei dati. Puoi sostituire valori null, rimuovere la punteggiatura, modificare le maiuscole e molto altro.

Limitazioni conosciute

I numeri con più di 15 cifre devono essere trattati come stringhe o perdono precisione. Imposta il tipo di colonna su Stringa, utilizzando lo strumento Seleziona.

Componenti dello strumento

data-cleansing-with-anchors.png

Figura: strumento Pulizia dei dati con ancoraggi.

Lo strumento Pulizia dei dati ha 2 ancoraggi.

  • Ancoraggio di input: utilizza l'ancoraggio di input per collegare i dati che desideri pulire.

  • Ancoraggio di output: l'ancoraggio di output restituisce i dati puliti.

Configura lo strumento

Rimozione dei dati null

Utilizza queste opzioni per rimuovere intere righe e colonne di dati null:

  • Rimozione di righe null

    • Rimuovi tutte le righe con un valore null in ogni colonna.

    • Rimuovi le righe con valori null: non rimuove le righe con valori di stringa vuoti.

    • Rimuovi solo le righe che hanno un valore null in ogni colonna.

Seleziona le colonne da pulire

Seleziona le colonne da pulire. Utilizza Seleziona tutto per selezionare o deselezionare tutte le colonne.

Tipi di dati stringa

Tutte le opzioni, ad eccezione di Sostituisci valori null con 0, si applicano ai tipi di dati stringa. Nel flusso di lavoro puoi utilizzare vari strumenti di pulizia dei dati, così da specificare opzioni diverse per colonne diverse.

Sostituzione dei valori null

  • Sostituisci con spazi bianchi (colonne stringa): sostituisci i valori null con un valore stringa vuoto. Uno spazio vuoto viene registrato come " " anziché come [Null]. Questa opzione è selezionata per impostazione predefinita.

  • Sostituisci con 0 (colonne numeriche): sostituisci i valori null con uno 0 (zero). Questa opzione è selezionata per impostazione predefinita.

Rimozione di caratteri non desiderati

  • Spazio bianco iniziale e finale: rimuove gli spazi bianchi iniziali e finali. Questa opzione è selezionata per impostazione predefinita.

  • Tabulazioni, interruzioni di riga e spazi vuoti duplicati : sostituisce qualsiasi occorrenza di spazi bianchi con un singolo spazio, comprese le terminazioni di riga, tabulazioni, spazi multipli e altri spazi bianchi consecutivi.

  • Tutti gli spazi bianchi: rimuove qualsiasi occorrenza di spazi bianchi.

  • Lettere: rimuove tutte le lettere, comprese le lettere dell'alfabeto non latino come A b Z À é ö.

  • Numeri: imuove tutti i numeri.

  • Punteggiatura: rimuove questi caratteri: ! " # $ % & ' ( ) * + , \ - . / : ; < = > ? @ [ / ] ^ _ ` { | } ~

Modifica di maiuscole/minuscole

Seleziona Modifica maiuscole/minuscole e quindi scegli un'opzione dal menu a discesa per modificare le maiuscole/minuscole dei tipi di dati stringa:

  • Maiuscolo: converte in maiuscolo tutte le lettere in una stringa.

  • Minuscolo: converte tutte le lettere di una stringa in lettere minuscole.

  • Iniziali maiuscole: rende maiuscola la prima lettera di tutte le parole in una stringa.