Ferramenta RegEx
Fluxo de trabalho de exemplo
A ferramenta RegEx possui um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar esse e muitos outros exemplos diretamente do Alteryx Designer.
Use a ferramenta RegEx (Expressão Regular) para usar a sintaxe de expressão regular para separar, corresponder ou substituir dados.
Suporte a expressões regulares
Embora haja suporte para expressões regulares no Designer, os usuários são responsáveis por suas próprias expressões e sobre como elas afetam seus dados.
Para mais recursos sobre como escrever expressões regulares, acesse https://regex101.com/ , um site não afiliado à Alteryx, ou o RegEx Coach , um aplicativo gráfico para Windows, também não afiliado, que você pode usar para fazer testes interativos com expressões regulares (compatíveis com Perl).
Para informações adicionais sobre Boost RegEx, consulte estes recursos:
Configurar a ferramenta
Selecione a Coluna a ser analisada .
Em Formato a ser convertido ...
Insira sua Expressão regular . Use o botão "+" para acessar expressões regulares comuns que você pode precisar ao criar sua expressão. Veja mais informações no site Perl Regular Expression Syntax .
Sem distinção entre maiúsculas e minúsculas : selecionado por padrão. Com essa opção marcada, as pesquisas não diferenciam letras maiúsculas e minúsculas.
Em Saída , selecione o Método de saída a ser usado na análise. Em seguida, configure as propriedades relacionadas.
Substituir : substitua a expressão que você pesquisou por uma segunda expressão.
Texto de substituição : digite uma expressão para substituir sua expressão regular original identificando o grupo marcado pelo qual a expressão será substituída. Use o botão "+" para acessar expressões regulares comuns que você pode precisar ao criar sua expressão.
Copiar texto não correspondido para a saída
Tokenizar : separe os dados recebidos usando uma expressão regular. Essa opção funciona de forma semelhante à ferramenta Texto para Colunas , mas em vez de fazer a correspondência para remover o que você não quer, você faz a correspondência com o que deseja manter. A correspondência deve ser feita com o token inteiro e, se houver um grupo marcado, somente aquela parte é retornada. Veja abaixo alguns Exemplos do método Tokenizar .
Dividir em colunas : divida uma única coluna de dados em múltiplas colunas, em cada instância do delimitador especificado.
Número de colunas : defina quantas colunas devem ser criadas.
Colunas extras : selecione o comportamento aplicado a colunas extras.
Descartar extras com aviso : os dados que se estendem após a divisão são descartados e um aviso é gerado indicando que houve excesso de informações.
Descartar extras sem aviso : os dados que se estendem após a divisão são descartados e nenhum aviso é gerado.
Erro : os dados que se estendem após a divisão causam um erro e o processamento do fluxo de trabalho é interrompido.
Nome raiz de saída : insira o nome que deve servir de base para as colunas recém-geradas. As novas colunas são nomeadas com o nome raiz acrescido de um número crescente em série.
Dividir em linhas : divida uma única coluna de dados em múltiplas linhas, em cada instância do delimitador especificado. Use uma coluna de chave em seu registro para que você não perca o controle sobre qual valor veio de qual linha.
Analisar : separe a expressão em novas colunas e defina o Nome , o Tipo e o Tamanho das novas colunas. Uma nova coluna é criada na tabela Colunas de saída com os seguintes campos:
Nome : clique sobre o nome da coluna para inserir um novo nome.
Tipo : use a lista suspensa para selecionar o novo tipo de dados.
Tamanho : clique sobre o número para inserir um novo tamanho para os dados.
Expressão : preenchido automaticamente.
Corresponder : acrescente uma coluna contendo o número 1 se a expressão for correspondida e 0 se não for.
Nome da coluna para o status de correspondência : forneça um nome para a coluna acrescentada.
Gerar erro se não houver correspondência : marque para gerar um erro caso não haja correspondência entre a expressão e a cadeia de caracteres e encerrar o processamento do fluxo de trabalho.
Exemplos do método Tokenizar
Estes casos de uso são baseados no método Tokenizar da ferramenta Regex.
Separar uma cadeia de nove caracteres 123456789 em três campos. A expressão regular é
...
.Separar uma cadeia de nove caracteres em três campos, retornando somente o segundo caractere. A expressão regular é
.(.).
.Separar um campo com o delimitador Ctrl-A . A expressão regular para tokenizar uma cadeia de caracteres delimitada por Ctrl-A é
[^\cA]+
.[^...]
Os colchetes especificam uma correspondência com um único caractere em um conjunto de caracteres. Iniciar o conjunto com^
altera a expressão para corresponder a qualquer caractere que não esteja no conjunto.\cA
Isto simplesmente corresponde ao caractere Ctrl-A.+
Isto determina que a correspondência seja feita a um ou mais caracteres anteriores.
Permitir que tokens em branco preservem entradas: abc, ,def . A expressão regular é
([^,]*) (?:,|$)
.(...)
Os parênteses criam um grupo marcado na expressão. O modo tokenizar permite fazer a correspondência a uma parte maior do campo de entrada, mas retornar somente um subconjunto marcado. Dessa forma, você evita retornar o delimitador. Você pode ter somente uma expressão marcada.[^,]
Iniciar o conjunto com^
altera a expressão para corresponder a qualquer caractere que não esteja no conjunto, neste caso a , .*
Determina que a correspondência seja feita a zero ou mais dos caracteres anteriores, permitindo um conjunto vazio. Você não pode terminar aqui porque o mecanismo RegEx não gosta de uma correspondência a 0 caracteres, pois isso leva a um número infinito de correspondências, então é preciso terminar a correspondência em algo.(?:....)
Esse é um grupo não marcado. Precisamos disso para o ou , para o qual usamos um|
.|
Isso determina que a correspondência seja feita com o que estiver antes ou depois, mas não com ambos. Quase sempre precisa ser usado com um grupo marcado ou não marcado.$
Corresponde ao final da cadeia de caracteres. Portanto,(?:,|$)
corresponde a uma , ou ao final da cadeia de caracteres.
Analisar links HTML de uma página inicial. A expressão regular é
<a .*?>.*?</a>
. Isso extrai todos os links de um documento HTML e os coloca em uma série de registros.<a
Esta é uma correspondência literal para o texto <a..*?.
é qualquer caractere,*
é zero ou mais. O?
modifica o*
para fazer com que o texto correspondido seja o mais curto possível. Sem isso, a expressão pode encontrar um único token desde o início do primeiro link até o final do último.>
Esta é uma correspondência literal para o texto > ..*?
A correspondência mais curta possível de quaisquer caracteres que ainda satisfaça a RegEx inteira.</a>
Esta é uma correspondência literal para o texto </a> . Isso encerra a correspondência.