Icon for the Text Pre-processing Tool

Pré-processamento de Texto

Versão:
2022.3
Last modified: July 01, 2022

    A partir da versão 21.4, a ferramenta Pré-processamento de Texto remove corretamente os pronomes quando você seleciona Usar stopwords padrão. Anteriormente, a ferramenta substituía pronomes pela frase "-PRON-".

    Use a ferramenta Pré-processamento de Texto para limpar dados de texto:

    • Converta palavras às suas raízes (lematização).
    • Filtre elementos indesejados, como dígitos, pontuação e palavras irrelevantes (stopwords).

    Componentes da ferramenta

    A ferramenta Pré-processamento de Texto tem três âncoras.

    • Âncora de entrada verde: use a âncora de entrada verde, na parte superior, para conectar os dados de texto que você deseja processar.
    • Âncora de entrada cinza: use a âncora de entrada cinza, na parte inferior, para transmitir uma lista de stopwords. Recomendamos o uso do formato CSV, mas a lista pode estar em qualquer formato de entrada, desde que as stopwords estejam listadas em uma única coluna com uma palavra por linha.
    • Âncora de saída: use a âncora de saída para passar os dados processados para etapas posteriores do fluxo de trabalho.

    Configurar a ferramenta

    1. Adicione a ferramenta Pré-processamento de Texto à tela.

    2. Use a âncora para conectar a ferramenta Pré-processamento de Texto aos dados de texto que você deseja usar no fluxo de trabalho.

    3. Identifique o Idioma dos dados.

    4. Selecione o Campo de texto que deseja usar.

    5. Execute o fluxo de trabalho.

    Opções avançadas

    A ferramenta Pré-processamento de Texto tem algumas opções avançadas.

    Normalização de texto

    Para converter palavras em suas raízes, marque a caixa de seleção Converter para raiz da palavra (lematização).

    Essa opção transforma palavras derivadas em suas raízes. Por exemplo, as palavras "correndo", "correu" e "corre" todas são convertidas para "correr" depois da lematização. Dessa forma, quando você aplica um algoritmo de machine learning para analisar as palavras, o algoritmo é capaz de reconhecer que todas essas palavras devem ser agrupadas.

    Filtrar

    Para remover dígitos, marque a caixa Dígitos. Essa opção remove certos tokens de dígitos (ou seja, números) dos dados. Pode ser útil selecionar essa opção porque os números podem confundir alguns algoritmos de processamento de linguagem natural.

    Para remover pontuação, marque a caixa Pontuação. Essa opção remove toda a pontuação dos dados. Isso pode ser útil porque a pontuação pode confundir alguns algoritmos de processamento de linguagem natural. Alguns tokens de pontuação, como o ponto em "Sr.", são mantidos porque carregam significado.

    Para remover palavras irrelevantes, marque a caixa Stopwords. Algumas stopwords são removidas por padrão. A ferramenta Pré-processamento de Texto usa o pacote spaCy como padrão. O spaCy tem listas diferentes de stopwords para cada idioma. Você pode ver a lista completa de stopwords para cada idioma no repositório GitHub do spaCy:

    Também é possível remover outras stopwords que não são removidas por padrão. Digite as palavras que deseja remover no campo de texto. Insira-as em um formato separado por vírgula (ou seja, separe cada stopword com uma vírgula e um espaço, nessa ordem).

    Saída

    Na grade de resultados, a ferramenta cria uma nova coluna nos dados com o nome da coluna processada seguido pelo sufixo "_processed".

    Esta página foi útil?

    Problemas com seu produto Alteryx? Visite a Comunidade Alteryx ou entre em contato com nossa Equipe de Suporte. Não é possível enviar este formulário? Envie-nos um e-mail.