Strumento Pulizia dei dati avanzata
Utilizza lo strumento Pulizia dei dati avanzata per risolvere i problemi comuni di qualità dei dati. Puoi sostituire i valori null, rimuovere la punteggiatura e i tag HTML, modificare la combinazione di maiuscole e minuscole, oltre a eseguire molte altre operazioni.
Importante
Lo strumento Pulizia dei dati originale rimane disponibile e continuerà a funzionare nei flussi di lavoro esistenti.
Componenti dello strumento
Lo strumento Pulizia dei dati avanzata ha 2 ancoraggi.
Ancoraggio di input: utilizza l'ancoraggio di input per connettere i dati che desideri pulire.
Ancoraggio di output: l'ancoraggio di output restituisce i dati puliti.
Configurazione dello strumento
La finestra Configurazione dello strumento Pulizia dei dati avanzata consente di specificare come desideri gestire i problemi di qualità dei dati.
Rimuovi dati
Seleziona una o entrambe le caselle di spunta per rimuovere intere righe e colonne di dati con valore null.
Importante
Queste opzioni vengono applicate dopo tutti gli altri passaggi di pulizia, per garantire un output coerente quando vengono combinate con le opzioni Sostituisci con valori null. Se vuoi rimuovere i valori null dall'input iniziale, non utilizzare contemporaneamente le opzioni Rimuovi dati e Sostituisci con valori null.
Righe null:
Rimuove tutte le righe con un valore null in ogni colonna.
Questa opzione non rimuove le righe che contengono solo stringhe vuote.
Viene visualizzato un messaggio che indica il numero delle righe rimosse.
Colonne null:
Rimuove tutte le colonne con un valore null in ogni riga.
Questa opzione non rimuove le colonne che contengono solo stringhe vuote.
Viene visualizzato un messaggio che indica il numero delle colonne rimosse.
Seleziona le colonne da pulire
Utilizza questa sezione per selezionare le colonne che desideri pulire. Queste colonne vengono popolate dalla connessione di input dello strumento. Nome colonna identifica il nome della colonna, mentre Tipo identifica il tipo di dati della colonna (Stringa, Intero, Float, Data e così via).
Puoi selezionare tutte le colonne, utilizzando la casella di spunta Seleziona tutto, oppure selezionare le colonne specifiche da pulire, selezionando la casella di spunta associata a ciascuna di esse.
Il campo di input Cerca consente di cercare colonne specifiche indicandone il nome.
Selezionando l'icona del filtro accanto a Tipo, puoi filtrare la tabella in modo da visualizzare solo le colonne con un tipo di dati specifico.
Per impostazione predefinita, vengono selezionate tutte le colonne e sono inclusi tutti i tipi di dati. Viene selezionata per impostazione predefinita anche la colonna Sconosciuto, che consente di inserire nuove colonne nei dati.
Rimuovi caratteri
Usa questa sezione per selezionare le specifiche categorie di caratteri che desideri rimuovere dalla colonna selezionata nella sezione precedente. Molti degli esempi riportati di seguito utilizzano questo input:
Input | Contenuto |
|---|---|
1 |
|
2 |
|
3 |
|
Tabulazioni iniziali e finali, interruzioni di riga e spazi vuoti: rimuove le tabulazioni, le interruzioni di riga e gli spazi vuoti all'inizio e alla fine di una stringa.
Output
Contenuto
1
Ciao , Community Alteryx!2
Sfide settimanali3
Documentazione della GuidaTabulazioni, interruzioni di riga e doppi spazi: sostituisce con un singolo spazio tutti gli spazi multipli consecutivi, le tabulazioni e gli altri caratteri non stampabili presenti in qualsiasi punto di una stringa.
Output
Contenuto
1
Ciao , Community Alteryx!2
Sfide settimanali3
Documentazione della GuidaTutti gli spazi vuoti: consente di rimuovere tutti gli spazi vuoti in qualsiasi punto di una stringa.
Output
Contenuto
1
Ciao,CommunityAlteryx!2
Sfide settimanali3
Documentazione della GuidaTag HTML: rimuove i tag HTML, XML e di altro tipo racchiusi fra parentesi angolari, lasciando solo il testo normale racchiuso fra le parentesi quadre. Se ad esempio l'input è
<h1>Alteryx</h1>, restituisceAlteryx.Input di esempio:
<div class="ExternalClass683BD308D77E4320B52BF37E72FF5C00"><html> <p>HD - Request to update several receiver fields - agreed to unlock file to allow for receiver edits - changes will be noted in notes field<br></p> </html></div>
Output di esempio:
HD - Richiesta di aggiornamento di vari campi di destinazione. L'utente ha accettato di sbloccare il file per consentire le modifiche nei campi di destinazione, che verranno registrate nel campo Note.
Importante
Se sono presenti parentesi angolari (< e >), viene interpretato come un testo che contiene tag. Questo potrebbe interessare anche i contenuti non HTML che includono i segni di minore e maggiore (
< >), ad esempio nelle espressioni matematiche o di confronto.Ad esempio...
Input:
3 < 5 e 3 > 1Output:
3 1: il testo< 5 e 3 >viene rimosso perché interpretato come tag.
Per evitare questa situazione, potresti sostituire le parentesi angolari con altri simboli, come
<e>, o utilizzare le parentesi tonde ().Caratteri invisibili: consente di rimuovere tutti gli indicatori di formattazione invisibili, come separatori, interruzioni di parola, oltre ai codici Unicode U+200B (spazi a larghezza zero) e U+00AD (trattino di sillabazione). Questa opzione è utile per le celle che sembrano vuote ma non lo sono veramente.
Lettere: rimuove tutte le lettere, comprese quelle che non appartengono all'alfabeto latino, come
A b Z À é ö. Il campo Tranne consente di specificare le lettere che non devono essere rimosse (con distinzione fra maiuscole e minuscole, senza separatori), se presenti. Categorie dei caratteri alfabetici ICU (International Components for Unicode):Lettere maiuscole: A, B, C, Α, Б
Lettere minuscole: a, b, c, α, б
Prima lettera maiuscola: Dž, Lj, Nj (prima lettera maiuscola speciale)
Carattere modificatore: ʰ, ˠ, ˡ (caratteri fonetici o modificatori)
Altri caratteri: क, 日, ש (lettere non maiuscole o minuscole)
Numeri: rimuove tutti i numeri. Il campo Tranne consente di specificare le cifre che non devono essere rimosse, se presenti. Valori numerici ICU (International Components for Unicode):
Cifre decimali: 0-9, ١, ۲ (cifre standard)
Numeri letterali: Ⅳ, Ⅶ, ↀ (numeri romani e così via)
Altri numeri: ½, ², ¾ (frazioni, apici)
Punteggiatura e caratteri speciali: consente di rimuovere tutti i segni di punteggiatura e i caratteri speciali in base alle definizioni di simboli e punteggiatura Unicode utilizzate dalla libreria ICU. Il campo Tranne permette di specificare i segni di punteggiatura che non devono essere rimossi, se presenti.
Nel sistema Unicode, tutti i segni di punteggiatura rientrano nella categoria Punteggiatura:
Caratteri unificatori: _ , ‿ , ⁀ (trattino di sottolineatura e così via)
Trattini: - , — , ‒ (trattino breve, trattino lungo)
Punteggiatura di apertura: ( , [ , { (parentesi aperte)
Punteggiatura di chiusura: ) , ] , } (parentesi chiuse)
Virgolette di apertura: " , ‘ (virgolette sinistre)
Virgolette di chiusura: " , ’ (virgolette destre)
Altri segni di punteggiatura: ! ? , ; (vari)
I caratteri rientrano nella categoria generale dei simboli, che include:
Simboli matematici: caratteri come +, −, = e ∞.
Simboli di valuta: caratteri come $, €, ¥ e £.
Modificatori: caratteri come ^, ˜ e accenti utilizzati per la trascrizione fonetica.
Altri simboli: simboli vari, che includono i caratteri ©, ® e le emoji.
Sostituisci colonne stringa
Determina come gestire i problemi di qualità dei dati nelle colonne di stringhe.
Sostituisci valori null con spazi: sostituisce i valori null con una stringa vuota. Uno spazio vuoto viene registrato come " " anziché come [Null].
Sostituisci valori vuoti con valori null: sostituisce le stringhe vuote con valori null. Uno spazio vuoto viene registrato come " " anziché come [Null]. Questa opzione è l'opposto di quella precedente e consente di standardizzare le colonne vuote come veri e propri valori null.
Sostituisci le colonne numeriche
Determina come gestire i problemi di qualità dei dati nelle colonne numeriche.
Sostituisci valori null con 0: sostituisce i valori null con il carattere zero (0).
Sostituisci 0 con valori null: sostituisce il carattere zero (0) con un valore null. Questa opzione è l'opposto di quella precedente.
Modifica maiuscole/minuscole
Seleziona la casella di spunta Modifica maiuscole/minuscole per attivare il menu a tendina Modifica maiuscole/minuscole. Seleziona una di queste opzioni:
minuscolo: converte in minuscole tutte le lettere di una stringa.
Iniziali maiuscole: rende maiuscola la prima lettera di tutte le parole in una stringa.
MAIUSCOLO: converte in maiuscolo tutte le lettere di una stringa.