Strumento RegEx
Esempio di uno strumento
RegEx dispone dell'opzione Esempio di uno strumento. Consulta Esempi di flussi di lavoro per scoprire come accedere a questo e a molti altri esempi direttamente in Alteryx Designer.
Utilizza lo strumento RegEx (espressioni regolari) per sfruttare la sintassi delle espressioni regolari per analizzare, trovare corrispondenze o sostituire dati.
Supporto per RegEx
Sebbene le espressioni regolari siano supportate in Designer, gli utenti sono responsabili delle proprie espressioni e del modo in cui le espressioni influiscono sui propri dati.
Per ulteriori risorse relative alla scrittura delle espressioni regolari, consulta https://regex101.com/ , un sito non affiliato ad Alteryx, o RegEx Coach , un'applicazione grafica per Windows non affiliata che può essere utilizzata per acquisire familiarità con le espressioni regolari (compatibili con Perl) in modo interattivo.
Per ulteriori informazioni su Boost RegEx, consulta le seguenti risorse:
Configurazione dello strumento
Seleziona la colonna da analizzare .
In Formato da convertire ...
Inserisci la tua Espressione regolare . Utilizza il pulsante "+" per accedere alle espressioni regolari comuni di cui potresti aver bisogno durante la creazione della tua espressione. Per ulteriori informazioni, visita il sito web Sintassi delle espressioni regolari Perl .
Senza distinzione tra maiuscole e minuscole : opzione selezionata per impostazione predefinita. Le ricerche non fanno distinzione tra lettere maiuscole e minuscole.
In Output , seleziona il metodo di output da utilizzare durante l'analisi. Quindi configura le proprietà correlate.
Sostituisci : consente di sostituire l'espressione cercata con una seconda espressione.
Testo sostitutivo : inserisci un'espressione da sostituire all'espressione regolare originale identificando il gruppo contrassegnato con cui sostituire l'espressione. Utilizza il pulsante "+" per accedere alle espressioni regolari comuni di cui potresti aver bisogno durante la creazione della tua espressione.
Copia del testo senza corrispondenza nell'output
Tokenizza : consente di suddividere i dati in ingresso utilizzando un'espressione regolare. Questa opzione funziona in modo simile allo strumento Testo in colonne , con la differenza che, anziché trovare corrispondenze e rimuovere ciò che non vuoi, vengono trovate le corrispondenze di ciò che vuoi conservare. Occorre una corrispondenza all'intero token e se disponi di un gruppo contrassegnato, viene restituita solo quella parte. Vai a Esempi di metodo Tokenizza di seguito.
Suddividi in colonne : divide in più colonne una singola colonna di dati a ogni istanza del delimitatore specificato.
Numero di colonne : imposta il numero di colonne create.
Colonne extra : seleziona il comportamento applicato alle colonne supplementari.
Rilascia extra con avviso : i dati che si estendono oltre la divisione vengono esclusi e viene generato un avviso che comunica la presenza di informazioni in eccesso.
Rilascia extra senza avviso : i dati che si estendono oltre la divisione vengono esclusi e non viene generato alcun avviso.
Errore : i dati che si estendono oltre la divisione causano un errore e il flusso di lavoro interrompe l'elaborazione.
Nome radice di output : inserisci il nome sui dovrebbero basare le colonne appena generate. Le nuove colonne vengono denominate come nome della radice con un numero intero crescente seriale aggiunto.
Suddividi in righe : divide in più righe una singola colonna di dati a ogni istanza del delimitatore specificato. Utilizza una colonna chiave nel proprio record in modo da non perdere traccia di quale valore proviene da quale riga.
Analizza : consente di separare l'espressione in nuove colonne e di impostare il nome , il tipo e la dimensione delle nuove colonne. Viene creata una nuova colonna nella tabella Colonne di output contenente le seguenti colonne:
Nome : seleziona il nome della colonna per immettere un nuovo nome.
Tipo : utilizza il menu a discesa per selezionare il nuovo tipo di dati.
Dimensione : seleziona la dimensione dei dati per immettere una nuova dimensione.
Espressione : compilata automaticamente.
Corrispondenza : consente di aggiungere una colonna contenente un numero: 1 se l'espressione corrisponde, 0 se non corrisponde.
Nome colonna per stato corrispondente : fornisci un nome per la colonna aggiunta.
Errore se senza corrispondenza : seleziona questa opzione per generare un errore se l'espressione e la stringa non corrispondono per terminare l'elaborazione del flusso di lavoro.
Esempi del metodo Tokenizza
Questi casi d'uso si basano sul metodo Tokenizza dello strumento Regex.
Analizza una stringa di 9 caratteri 123456789 in 3 campi. L'espressione regolare è
...
.Analizza una stringa di 9 caratteri in 3 campi, restituendo solo il secondo carattere. L'espressione regolare è
.(.).
.Analizza un campo con il delimitatore Ctrl-A . L'espressione regolare per la tokenizzazione di una stringa delimitata con Ctrl-A è
[^\cA]+
.[^...]
Le parentesi specificano una corrispondenza a un singolo carattere in un insieme di caratteri. Se l'insieme inizia con^
, significa che la corrispondenza deve essere con un qualsiasi carattere non contenuto nell'insieme.\cA
corrisponde semplicemente al carattere Ctrl-A.+
significa una corrispondenza con 1 o più elementi precedenti.
Consenti ai token vuoti di conservare le voci: abc, ,def . L'espressione regolare è
([^,]*) (?:,|$)
.(...)
Le parentesi creano un gruppo contrassegnato dell'espressione. La modalità Tokenizza consente di trovare una corrispondenza con una parte più ampia del campo di input, ma restituisce solo un sottoinsieme contrassegnato. In questo modo si evita la restituzione del delimitatore. È possibile avere una sola espressione contrassegnata.[^,]
Se l'insieme inizia con^
significa che la corrispondenza deve essere con un qualsiasi carattere non contenuto nell'insieme, in questo caso una , .*
corrisponde a 0 o più elementi precedenti, consentendo un insieme vuoto. Non è possibile terminare qui perché l'engine regex non può avere una corrispondenza di 0 caratteri, in quanto esiste un numero infinito di corrispondenze. Occorre quindi terminare la corrispondenza con qualcosa.(?:....)
si tratta di un gruppo non contrassegnato. È necessario per o per il quale utilizziamo|
.|
indica di trovare una corrispondenza con l'elemento precedente o successivo, ma non con entrambi. Va utilizzato quasi sempre con un gruppo contrassegnato o non contrassegnato.$
corrisponde alla fine della stringa. Quindi(?:,|$)
trova una corrispondenza fino a una , o alla fine della stringa.
Analizza i collegamenti HTML da una pagina iniziale. L'espressione regolare è
<a .*?>.*?</a>
. In questo modo, ogni collegamento di un documento HTML di grandi dimensioni viene inserito in una serie di record.<a
indica una corrispondenza letterale per il testo <a..*?.
è un qualsiasi carattere,*
è 0 o più. Mentre?
modifica*
in modo che corrisponda alla corrispondenza più breve possibile. Se non presente, l'espressione potrebbe trovare un singolo token dall'inizio del primo collegamento alla fine dell'ultimo..*?
indica la corrispondenza più breve possibile di qualsiasi carattere che soddisfa comunque l'intera espressione regolare.</a>
indica una corrispondenza letterale per il testo </a> . In questo modo si termina la corrispondenza.