Use a ferramenta RegEx para usar a sintaxe de expressão regular para separar, corresponder ou substituir dados.
Dica
Esta ferramenta tem um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar esse e muitos outros exemplos diretamente no Designer Cloud.
Embora haja suporte para expressões regulares no Designer Cloud, os usuários são responsáveis por suas próprias expressões e sobre como elas afetam seus dados.
Para mais recursos sobre como escrever expressões regulares, acesse https://regex101.com/ , um site não afiliado à Alteryx, ou o RegEx Coach , um aplicativo não afiliado gráfico para Windows que você pode usar para fazer testes interativos com expressões regulares (compatíveis com Perl).
Para informações adicionais sobre Boost RegEx, consulte estes recursos:
Selecione a Coluna a ser analisada .
Insira sua Expressão regular . Use o botão de sinal de adição para ver expressões regulares comuns. Veja mais informações no site Perl Regular Expression Syntax .
Marque Diferenciar maiúsculas de minúsculas para que a pesquisa faça essa diferenciação.
Selecione o Método de saída que será usado durante a análise e configure as propriedades relacionadas.
Corresponder : acrescente uma coluna contendo o número 1 se a expressão for correspondida e 0 se não for.
Nome da coluna para o status de correspondência : forneça um nome para a coluna acrescentada.
Separar : separe a expressão em novas colunas e defina o Nome e o Tipo das novas colunas. Uma nova coluna é criada na tabela Colunas de saída com os seguintes parâmetros:
Nome : clique sobre o nome da coluna para inserir um novo nome.
Tipo : use a lista suspensa para selecionar o novo tipo de dados.
Expressão : preenchido automaticamente.
Substituir : substitua a expressão que você pesquisou por uma segunda expressão.
Substituir por : digite uma expressão para substituir sua expressão regular original identificando o grupo marcado pelo qual a expressão será substituída. Use o botão de sinal de adição para ver expressões regulares comuns.
Marque Copiar texto não correspondido para a saída para copiar para a saída texto que não apresentou correspondência.
Tokenizar : separe os dados recebidos usando uma expressão regular. Essa opção funciona de forma semelhante à ferramenta Texto para Colunas , mas em vez de fazer a correspondência para remover o que você não quer, você faz a correspondência com o que deseja manter. A correspondência deve ser feita com o token inteiro e, se houver um grupo marcado, somente aquela parte é retornada. Veja abaixo alguns exemplos do método "Tokenizar".
Dividir em colunas : divida uma única coluna de dados em múltiplas colunas, em cada instância do delimitador especificado.
Número de colunas de saída : defina quantas colunas devem ser criadas.
Cabeçalho das colunas de saída : insira o nome que deve servir de base para as colunas recém-geradas. As novas colunas são nomeadas com o nome raiz acrescido de um número crescente em série.
Se houver colunas extras na saída : selecione o comportamento aplicado a colunas extras.
Não incluir : os dados que se estendem após a divisão são descartados e nenhum aviso é gerado.
Não incluir e mostrar aviso : os dados que se estendem após a divisão são descartados e um aviso é gerado indicando que houve informações excedentes.
Erro (parar processamento de dados) : os dados que se estendem após a divisão causam um erro e o processamento do fluxo de trabalho é interrompido.
Dividir em linhas : divida uma única coluna de dados em múltiplas linhas, em cada instância do delimitador especificado. Use uma coluna de chave em seu registro para que você não perca o controle sobre qual valor veio de qual linha.
Estes casos de uso são baseados no método "Tokenizar" da ferramenta Regex.
Separar uma cadeia de nove caracteres
123456789
em três campos. A expressão regular é...
.Separar uma cadeia de nove caracteres em três campos, retornando somente o segundo caractere. A expressão regular é
.(.).
.Separar um campo com o delimitador Ctrl-A . A expressão regular para tokenizar uma cadeia de caracteres delimitada por Ctrl-A é
[^\cA]+
.[^...]
Os colchetes especificam uma correspondência com um único caractere em um conjunto de caracteres. Iniciar o conjunto com^
altera a expressão para corresponder a qualquer caractere que não esteja no conjunto.\cA
Isto simplesmente corresponde ao caractere Ctrl-A .+
Isto determina que a correspondência seja feita a um ou mais caracteres anteriores.
Permitir que tokens em branco preservem entradas:
abc, ,def
. A expressão regular é([^,]*) (?:,|$)
.(...)
Os parênteses criam um grupo marcado na expressão. O modo "Tokenizar" permite fazer a correspondência a uma parte maior do campo de entrada, mas retornar somente um subconjunto marcado. Dessa forma, você evita retornar o delimitador. Você pode ter somente uma expressão marcada.[^,]
Iniciar o conjunto com^
altera a expressão para corresponder a qualquer caractere que não esteja no conjunto, neste caso a,
.*
determina que a correspondência seja feita a zero ou mais dos caracteres anteriores, permitindo um conjunto vazio. Você não pode terminar aqui porque o mecanismo RegEx não gosta de uma correspondência a zero caracteres, pois isso leva a um número infinito de correspondências, então é preciso terminar a correspondência de outra forma.(?:....)
é um grupo não marcado. Precisamos disso para oou
, para o qual usamos um|
.|
corresponde ao que vem antes ou depois, mas não ambos. Quase sempre precisa ser usado com um grupo marcado ou não marcado.$
corresponde ao final da cadeia de caracteres. Por exemplo,(?:,|$)
corresponde a uma,
ou ao final da cadeia de caracteres.
Analisar links HTML de uma página inicial. A expressão regular é
<a .*?>.*?</a>
. Isso extrai todos os links de um documento HTML e os coloca em uma série de linhas.<a
é uma correspondência literal para o texto "<a.".*?.
é qualquer caractere,*
é zero ou mais. O?
modifica o*
para fazer com que o texto correspondido seja o mais curto possível. Sem isso, a expressão pode encontrar um único token desde o início do primeiro link até o final do último.>
Esta é uma correspondência literal para o texto " > .".*?
A correspondência mais curta possível de quaisquer caracteres que ainda satisfaça a RegEx inteira.</a>
Isto é uma correspondência literal para o texto " </a> ." Isso termina a correspondência.