Skip to main content

Green hexagon containing a left parenthesis, period, asterisk and right parenthesis. Ferramenta RegEx

Fluxo de trabalho de exemplo

A ferramenta RegEx possui um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar esse e muitos outros exemplos diretamente do Alteryx Designer.

Use a ferramenta RegEx (Expressão Regular) para usar a sintaxe de expressão regular para separar, corresponder ou substituir dados.

Suporte a expressões regulares

Embora haja suporte para expressões regulares no Designer, os usuários são responsáveis por suas próprias expressões e sobre como elas afetam seus dados.

Para mais recursos sobre como escrever expressões regulares, acesse https://regex101.com/ , um site não afiliado à Alteryx, ou o RegEx Coach , um aplicativo gráfico para Windows, também não afiliado, que você pode usar para fazer testes interativos com expressões regulares (compatíveis com Perl).

Para informações adicionais sobre Boost RegEx, consulte estes recursos:

Configurar a ferramenta

  1. Selecione a Coluna a ser analisada .

  2. Em Formato a ser convertido ...

    • Insira sua Expressão regular . Use o botão "+" para acessar expressões regulares comuns que você pode precisar ao criar sua expressão. Veja mais informações no site Perl Regular Expression Syntax .

    • Sem distinção entre maiúsculas e minúsculas : selecionado por padrão. Com essa opção marcada, as pesquisas não diferenciam letras maiúsculas e minúsculas.

  3. Em Saída , selecione o Método de saída a ser usado na análise. Em seguida, configure as propriedades relacionadas.

    • Substituir : substitua a expressão que você pesquisou por uma segunda expressão.

      • Texto de substituição : digite uma expressão para substituir sua expressão regular original identificando o grupo marcado pelo qual a expressão será substituída. Use o botão "+" para acessar expressões regulares comuns que você pode precisar ao criar sua expressão.

      • Copiar texto não correspondido para a saída

    • Tokenizar : separe os dados recebidos usando uma expressão regular. Essa opção funciona de forma semelhante à ferramenta Texto para Colunas , mas em vez de fazer a correspondência para remover o que você não quer, você faz a correspondência com o que deseja manter. A correspondência deve ser feita com o token inteiro e, se houver um grupo marcado, somente aquela parte é retornada. Veja abaixo alguns  Exemplos do método Tokenizar .

      • Dividir em colunas : divida uma única coluna de dados em múltiplas colunas, em cada instância do delimitador especificado.

        • Número de colunas : defina quantas colunas devem ser criadas.

        • Colunas extras : selecione o comportamento aplicado a colunas extras.

          • Descartar extras com aviso : os dados que se estendem após a divisão são descartados e um aviso é gerado indicando que houve excesso de informações.

          • Descartar extras sem aviso : os dados que se estendem após a divisão são descartados e nenhum aviso é gerado.

          • Erro : os dados que se estendem após a divisão causam um erro e o processamento do fluxo de trabalho é interrompido.

        • Nome raiz de saída : insira o nome que deve servir de base para as colunas recém-geradas. As novas colunas são nomeadas com o nome raiz acrescido de um número crescente em série.

      • Dividir em linhas : divida uma única coluna de dados em múltiplas linhas, em cada instância do delimitador especificado. Use uma coluna de chave em seu registro para que você não perca o controle sobre qual valor veio de qual linha.

    • Analisar : separe a expressão em novas colunas e defina o Nome , o Tipo e o Tamanho das novas colunas. Uma nova coluna é criada na tabela Colunas de saída  com os seguintes campos:

      • Nome : clique sobre o nome da coluna para inserir um novo nome.

      • Tipo : use a lista suspensa para selecionar o novo tipo de dados.

      • Tamanho : clique sobre o número para inserir um novo tamanho para os dados.

      • Expressão : preenchido automaticamente.

    • Corresponder : acrescente uma coluna contendo o número 1 se a expressão for correspondida e 0 se não for.

      • Nome da coluna para o status de correspondência : forneça um nome para a coluna acrescentada.

      • Gerar erro se não houver correspondência : marque para gerar um erro caso não haja correspondência entre a expressão e a cadeia de caracteres e encerrar o processamento do fluxo de trabalho.

Exemplos do método Tokenizar

Estes casos de uso são baseados no método Tokenizar da ferramenta Regex.

  • Separar uma cadeia de nove caracteres 123456789 em três campos. A expressão regular é ... .

  • Separar uma cadeia de nove caracteres em três campos, retornando somente o segundo caractere. A expressão regular é .(.). .

  • Separar um campo com o delimitador Ctrl-A . A expressão regular para tokenizar uma cadeia de caracteres delimitada por Ctrl-A é [^\cA]+ .

    • [^...] Os colchetes especificam uma correspondência com um único caractere em um conjunto de caracteres. Iniciar o conjunto com ^ altera a expressão para corresponder a qualquer caractere que não esteja no conjunto.

    • \cA Isto simplesmente corresponde ao caractere Ctrl-A.

    • + Isto determina que a correspondência seja feita a um ou mais caracteres anteriores.

  • Permitir que tokens em branco preservem entradas: abc, ,def . A expressão regular é ([^,]*) (?:,|$) .

    • (...) Os parênteses criam um grupo marcado na expressão. O modo tokenizar permite fazer a correspondência a uma parte maior do campo de entrada, mas retornar somente um subconjunto marcado. Dessa forma, você evita retornar o delimitador. Você pode ter somente uma expressão marcada.

    • [^,] Iniciar o conjunto com ^ altera a expressão para corresponder a qualquer caractere que não esteja no conjunto, neste caso a , .

    • * Determina que a correspondência seja feita a zero ou mais dos caracteres anteriores, permitindo um conjunto vazio. Você não pode terminar aqui porque o mecanismo RegEx não gosta de uma correspondência a 0 caracteres, pois isso leva a um número infinito de correspondências, então é preciso terminar a correspondência em algo.

    • (?:....) Esse é um grupo não marcado. Precisamos disso para o ou , para o qual usamos um  | .

    • | Isso determina que a correspondência seja feita com o que estiver antes ou depois, mas não com ambos. Quase sempre precisa ser usado com um grupo marcado ou não marcado.

    • $ Corresponde ao final da cadeia de caracteres. Portanto, (?:,|$) corresponde a uma , ou ao final da cadeia de caracteres.

  • Analisar links HTML de uma página inicial. A expressão regular é <a .*?>.*?</a> . Isso extrai todos os links de um documento HTML e os coloca em uma série de registros.

    • <a Esta é uma correspondência literal para o texto <a.

    • .*?. é qualquer caractere, * é zero ou mais. O ? modifica o * para fazer com que o texto correspondido seja o mais curto possível. Sem isso, a expressão pode encontrar um único token desde o início do primeiro link até o final do último.

    • > Esta é uma correspondência literal para o texto  > .

    • .*? A correspondência mais curta possível de quaisquer caracteres que ainda satisfaça a RegEx inteira.

    • </a> Esta é uma correspondência literal para o texto </a> . Isso encerra a correspondência.