Pré-processamento de Texto

Use a ferramenta Pré-processamento de Texto para limpar dados de texto:

Converta palavras às suas raízes (lematização).
Filtre elementos indesejados, como dígitos, pontuação e palavras irrelevantes (stopwords).

Requer o Alteryx Intelligence Suite

Esta ferramenta faz parte do Alteryx Intelligence Suite . O Intelligence Suite exige uma licença separada e um instalador complementar para o Designer. Depois de instalar o Designer, instale o Intelligence Suite e inicie sua avaliação gratuita .

Importante

A partir da versão 21.4, a ferramenta Pré-processamento de Texto remove corretamente os pronomes quando você seleciona Usar stopwords padrão . Anteriormente, a ferramenta substituía pronomes pela frase -PRON-.

Suporte a idiomas

A ferramenta Pré-processamento de Texto é compatível com inglês, francês, alemão, italiano, português e espanhol.

Componentes da ferramenta

A ferramenta Pré-processamento de Texto tem três âncoras.

Âncora de entrada verde: use a âncora de entrada verde, na parte superior, para conectar os dados de texto que você deseja processar.
Âncora de entrada cinza: use a âncora de entrada cinza, na parte inferior, para transmitir uma lista de stopwords. Recomendamos o uso do formato CSV, mas a lista pode estar em qualquer formato de entrada, desde que as stopwords estejam listadas em uma única coluna com uma palavra por linha.
Âncora de saída: use a âncora de saída para passar os dados processados para etapas posteriores do fluxo de trabalho.

Configurar a ferramenta

Adicione a ferramenta Pré-processamento de Texto à tela.
Use a âncora para conectar a ferramenta Pré-processamento de Texto aos dados de texto que você deseja usar no fluxo de trabalho.
Identifique o Idioma dos dados.
Selecione o Campo de texto que deseja usar.
Clique no botão para Executar o fluxo de trabalho.

Opções avançadas

A ferramenta Pré-processamento de Texto tem algumas opções avançadas.

Normalização de texto

Para converter palavras em suas raízes, marque a caixa de seleção Converter para raiz da palavra (lematização) .

Essa opção transforma palavras derivadas em suas palavras-raiz. Por exemplo, as palavras "correndo", "correu" e "corre" tornam-se a palavra "correr" depois que você as lematiza. Dessa forma, quando você aplica um algoritmo de machine learning para analisar as palavras, ele é capaz de reconhecer que todas essas palavras devem ser agrupadas.

Filtrar

Para remover dígitos, marque a caixa Dígitos . essa opção remove certos tokens de dígitos (em outras palavras, números) dos dados. Pode ser útil selecionar essa opção porque os números podem confundir alguns algoritmos de processamento de linguagem natural.

Para remover pontuação, marque a caixa Pontuação . essa opção remove pontuação dos dados. Isso pode ser útil porque a pontuação pode confundir alguns algoritmos de processamento de linguagem natural. Alguns tokens de pontuação, como o ponto em "Sr.", são mantidos porque carregam significado.

Para remover palavras irrelevantes, marque a caixa Stopwords . Algumas stopwords são removidas por padrão. A ferramenta Pré-processamento de Texto usa o pacote spaCy como padrão. O spaCy tem listas diferentes de stopwords para cada idioma. Você pode ver a lista completa de stopwords para cada idioma no repositório GitHub do spaCy:

Também é possível remover outras stopwords que não são removidas por padrão. Digite as palavras que deseja remover no campo de texto. Insira-as em um formato separado por vírgula (ou seja, separe cada stopword com uma vírgula e um espaço, nessa ordem).

Saída

Na grade de resultados, a ferramenta cria uma nova coluna nos dados com o nome da coluna processada seguido pelo sufixo "_processed".