Marcador de Classe Gramatical

Versão:
2022.3
Last modified: May 04, 2022

Use a ferramenta Marcador de Classe Gramatical para identificar partes da fala, como substantivos, verbos e adjetivos, no texto. A marcação de classe gramatical é uma etapa de processamento comum para limpar, preparar e aprimorar dados para aplicativos de processamento de linguagem natural. A ferramenta Marcador de Classe Gramatical aproveita os recursos de classe gramatical no pacote spaCy. A precisão da marcação de classe gramatical para o inglês é de cerca de 97% e varia ligeiramente para os outros idiomas compatíveis.

Suporte a idiomas

A ferramenta Marcador de Classe Gramatical é compatível com inglês, francês, alemão, italiano, português e espanhol. As marcas de saída de classe gramatical estão disponíveis apenas em inglês.

Componentes da ferramenta

A ferramenta Marcador de Classe Gramatical tem duas âncoras:

  • Âncora de entrada: use a âncora de entrada para conectar os dados de texto que você deseja analisar.
  • Âncora de saída: use a âncora de saída para passar os dados do texto marcado para etapas posteriores.

Configurar a ferramenta

  1. Adicione uma ferramenta Marcador de Classe Gramatical à tela.
  2. Use as âncoras para conectar a ferramenta Marcador de Classe Gramatical aos dados de texto que você deseja usar no fluxo de trabalho.
  3. Selecione o Idioma dos dados de texto.
  4. Selecione a Coluna com texto que deseja analisar.
  5. Execute o fluxo de trabalho.

Saída

A ferramenta Marcador de Classe Gramatical contêm as colunas de entrada além de duas colunas:

  • part_of_speech_tags: esta coluna contém uma saída JSON com uma lista de marcas e descrições de classe gramatical. Cada token (palavra) em um corpus (onde cada linha na coluna de texto de entrada contém um corpus) contém os valores listados abaixo dentro da saída JSON.
    • text: a palavra marcada.
    • part_of_speech: o marcador de classe gramatical de granulação grossa.
    • part_of_speech_description: a descrição do marcador de classe gramatical de granulação grossa.
    • fine_grained_tag: o marcador de classe gramatical de granulação fina.
    • fine_grained_tag_description: a descrição do marcador de classe gramatical de granulação fina.
    • dependency: a dependência de classe gramatical.
    • dependency_description: a descrição da dependência de classe gramatical.
    • character_index: o índice do 1º caractere da palavra no corpus. O índice começa em 0.
    • word_index: o índice da palavra no corpus. O índice começa em 0.
    • text_length: o tamanho da palavra.
  • dependency_diagram: esta coluna contém um objeto HTML do diagrama de dependência do marcador displaCy que pode ser visualizado por meio da ferramenta Navegar.

Como separar a saída JSON

Para transformar a saída JSON em dados tabulares, use uma combinação das ferramentas Análise JSON, Texto para Colunas e Tabela de Referência Cruzada neste fluxo de exemplo:

  1. Passe a saída da ferramenta Marcador de Classe Gramatical para a entrada da ferramenta Análise JSON.
  2. Selecione a coluna gramatical no Campo JSON.
  3. Selecione Fazer a saída dos valores em um único campo de cadeia de caracteres.
  4. Passe a saída da ferramenta Análise JSON para a entrada Texto para Colunas.
  5. Selecione a coluna Nome JSON na Coluna para dividir e defina Delimitadores como um ponto (.).
  6. Selecione Dividir em colunas e defina Número de colunas como 3.
  7. Passe a saída da ferramenta Texto para Colunas para a entrada da ferramenta Tabela de Referência Cruzada.
  8. Configuração da ferramenta Tabela de Referência Cruzada:
    1. Agrupar dados por estes valores: selecione o nome da coluna que contém os dados de texto originais e a segunda coluna de nome JSON dividida (por padrão, é JSON_Name2).
    2. Alterar cabeçalhos de coluna: selecione a terceira coluna de nome JSON dividida (por padrão, é JSON_Name3).
    3. Valores para novas colunas: selecione JSON_ValueString.
  9. Execute o fluxo de trabalho. A saída da ferramenta Tabela de Referência Cruzada agora contém a forma tabular da saída da ferramenta Marcador de Classe Gramatical.

Diagrama de dependência

Segue um exemplo de diagrama de dependência para a frase, "Esta é uma frase". A marca de classe gramatical de granulação grossa é preenchida abaixo de cada palavra. A descrição da marca de classe gramatical de granulação grossa está na saída JSON em "part_of_speech_description". Cada seta indica a dependência sintática entre duas palavras. A descrição de cada dependência está na saída JSON em "dependency_description".

Exemplo de diagrama de dependência

Descrições de marcas de classe gramatical de granulação grossa para o diagrama de dependência acima:

  • AUX: Auxiliar
  • DET: Determinador
  • NOUN: Substantivo

Descrições de dependência para o diagrama de dependência acima:

  • nsubj: Assunto nominal
  • attr: Atributo
  • det: Determinador

Perguntas frequentes

Como devo usar o diagrama de dependência?

O diagrama é um elemento visual para ajudar o usuário a ver as marcas de classe gramatical. O diagrama também mostra como as palavras são associadas. Nesse estágio, as dependências são apenas parte do visual e não estão incluídas na saída.

O diagrama de dependência funciona com as ferramentas Geração de Relatórios?

Neste momento, o Marcador de Classe Gramatical não funciona com as ferramentas Geração de Relatórios. Por exemplo, não é possível salvar o diagrama de dependência como uma imagem.

Por que a ferramenta Marcador de Classe Gramatical leva vários segundos para ser executada?

O modelo é armazenado em cache na primeira execução e, portanto, a primeira execução será mais lenta. Para o mesmo texto, os fluxos de trabalho serão mais rápidos nas execuções subsequentes. Observe que o cache expira e é possível que o ciclo comece novamente.

Esta página foi útil?

Problemas com seu produto Alteryx? Visite a Comunidade Alteryx ou entre em contato com nossa Equipe de Suporte. Não é possível enviar este formulário? Envie-nos um e-mail.