
Ferramenta RegEx
A documentação de ajuda está disponível antes do lançamento do Designer Cloud para que você possa dar uma olhadinha. O conteúdo pode mudar até o lançamento oficial.
Exemplo de cada ferramenta
A ferramenta RegEx possui um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar esse e muitos outros exemplos diretamente do Alteryx Designer Cloud.
Use a ferramenta RegEx para usar a sintaxe de expressão regular para separar, corresponder ou substituir dados.
Suporte a expressões regulares
Embora haja suporte para expressões regulares no Designer Cloud, os usuários são responsáveis por suas próprias expressões e sobre como elas afetam seus dados.
Para mais recursos sobre como gravar expressões regulares, visite https://regex101.com/, um site não afiliado à Alteryx, ou o RegEx Coach, para Windows, um aplicativo não afiliado que você pode usar para experimentar expressões regulares (compatíveis com o Perl) interativamente.
Para informações adicionais sobre Boost RegEx, veja estes recursos:
Configurar a ferramenta
- Selecione Coluna a ser analisada.
- Insira sua Expressão regular. Use o botão com sinal de adição para ver expressões regulares comuns. Veja mais informações no site Perl Regular Expression Syntax.
- Marque Diferenciar maiúsculas de minúsculas para a pesquisa diferenciar maiúsculas de minúsculas.
- Selecione oMétodo de saída que será usado durante a análise e configure as propriedades relacionadas.
- Substituir: substitua a expressão que você pesquisou por uma segunda expressão.
- Substituir por: digite uma expressão para substituir sua expressão regular original identificando o grupo marcado pelo qual a expressão será substituída. Use o botão de sinal de adição para ver expressões regulares comuns.
- Marque Copiar texto não correspondido para a saída para copiar o texto não correspondido para a saída.
- Tokenizar: separe os dados recebidos usando uma expressão regular. Essa opção funciona de forma semelhante à ferramenta Texto para Colunas, mas em vez de fazer a correspondência e remover o que você não quer, você faz a correspondência com o que deseja manter. A correspondência deve ser feita com o token inteiro e, se houver um grupo marcado, somente aquela parte é retornada. Veja abaixo alguns Exemplos do método Tokenizar.
- Dividir em colunas: divida uma única coluna de dados em múltiplas colunas, em cada instância do delimitador especificado.
- Número de colunas de saída: defina quantas colunas devem ser criadas.
- Cabeçalho da coluna de saída: insira o nome que deve servir de base para as colunas recém-geradas. As novas colunas são nomeadas com o nome raiz acrescido de um número crescente em série.
- Se houver colunas extras na saída: selecione o comportamento aplicado à colunas extras.
- Não inclui: os dados que se estendem após a divisão são descartados e nenhum aviso é gerado.
- Não inclui e exibe um aviso: os dados que se estendem após a divisão são descartados e um aviso é gerado indicando que houve informações excedentes.
- Erro (parar processamento de dados): os dados que se estendem após a divisão causam um erro e o processamento do fluxo de trabalho é interrompido.
- Dividir em linhas: divida uma única coluna de dados em múltiplas linhas, em cada instância do delimitador especificado. Use uma coluna de chave em seu registro para que você não perca o controle sobre qual valor veio de qual linha.
- Dividir em colunas: divida uma única coluna de dados em múltiplas colunas, em cada instância do delimitador especificado.
- Analisar: separe a expressão em novas colunas e defina o Nome, o Tipo e o Tamanho das novas colunas. Uma nova coluna é criada na tabela Colunas de saída com os seguintes parâmetros:
- Nome: clique sobre o nome da coluna para inserir um novo nome.
- Tipo: use a lista suspensa para selecionar o novo tipo de dados.
- Tamanho: clique sobre o número para inserir um novo tamanho para os dados.
- Expressão: preenchido automaticamente.
- Corresponder: acrescente uma coluna contendo o número 1 se a expressão for correspondida e 0 se não for.
- Nome da coluna para o status de correspondência: forneça um nome para a coluna acrescentada.
- Gerar erro se não houver correspondência: marque para gerar um erro caso não haja correspondência entre a expressão e a cadeia de caracteres para encerrar o processamento do fluxo de trabalho.
- Substituir: substitua a expressão que você pesquisou por uma segunda expressão.
Exemplos do método Tokenizar
Estes casos de uso são baseados no método Tokenizar da ferramenta Regex.
- Separe uma cadeia de nove caracteres
123456789
em três campos. A expressão regular é...
. - Separe uma cadeia de nove caracteres em três campos, retornando somente o segundo caractere. A expressão regular é
.(.).
. - Separe um campo com o delimitador Ctrl-A. A expressão regular para tokenizar uma cadeia de caracteres delimitada por Ctrl-A é
[^\cA]+
.[^...]
Os colchetes especificam uma correspondência com um único caractere em um conjunto de caracteres. Iniciar o conjunto com^
altera a expressão para corresponder a qualquer caractere que não esteja no conjunto.\cA
Isto simplesmente corresponde ao caractere Ctrl-A.+
Isto determina que a correspondência seja feita a um ou mais caracteres anteriores.
- Permitir que tokens em branco preservem entradas:
abc, ,def
. A expressão regular é([^,]*) (?:,|$)
.(...)
Os parênteses criam um grupo marcado na expressão. O modo tokenizar permite fazer a correspondência a uma parte maior do campo de entrada, mas retornar somente um subconjunto marcado. Dessa forma, você evita retornar o delimitador. Você pode ter somente uma expressão marcada.[^,]
Iniciar o conjunto com^
altera a expressão para corresponder a qualquer caractere que não esteja no conjunto, neste caso,
.*
determina que a correspondência seja feita a zero ou mais dos caracteres anteriores, permitindo um conjunto vazio. Você não pode terminar aqui porque o mecanismo RegEx não gosta de uma correspondência a zero caracteres, pois isso leva a um número infinito de correspondências, então é preciso terminar a correspondência de outra forma.(?:....)
é um grupo não marcado. Precisamos disso para oor
, para o qual usamos uma|
.|
corresponde ao que vem antes ou depois, mas não ambos. Quase sempre precisa ser usada com um grupo marcado ou não marcado.$
corresponde ao final da cadeia de caracteres. Portanto,(?:,|$)
corresponde a,
ou ao final da cadeia de caracteres.
- Analisar links HTML de uma página inicial. A expressão regular é
<a .*?>.*?</a>
. Isso extrai todos os links de um documento HTML e os coloca em uma série de linhas.<a
é uma correspondência literal para o texto "<a.".*?.
é qualquer caractere,*
é zero ou mais. O?
modifica o*
para fazer com que o texto correspondido seja o mais curto possível. Sem isso, a expressão pode encontrar um único token desde o início do primeiro link até o final do último.>
Esta é uma correspondência literal para o texto ">.".*?
A correspondência mais curta possível de quaisquer caracteres que ainda satisfaça a RegEx inteira.</a>
É uma correspondência literal para o texto "</a>." Isso termina a correspondência.