Skip to main content

speech_tagger70cb.png Marcador de Classe Gramatical

Use a ferramenta Marcador de Classe Gramatical para identificar classes gramaticais, como substantivos, verbos e adjetivos, em textos. A marcação de classe gramatical é uma etapa comum para limpar, preparar e aprimorar dados para aplicativos de processamento de linguagem natural. A ferramenta Marcador de Classe Gramatical aproveita os recursos de classe gramatical no pacote spaCy . A precisão da marcação para o inglês é de cerca de 97% e varia ligeiramente para os outros idiomas compatíveis .

Requer o Alteryx Intelligence Suite

Esta ferramenta faz parte do Alteryx Intelligence Suite . O Intelligence Suite exige uma licença separada e um instalador complementar para o Designer. Depois de instalar o Designer, instale o Intelligence Suite e inicie sua avaliação gratuita .

Suporte a idiomas

A ferramenta Marcador de Classe Gramatical é compatível com inglês, francês, alemão, italiano, português e espanhol. As tags de saída para as classes gramaticais estão disponíveis apenas em inglês.

Componentes da ferramenta

A ferramenta Marcador de Classe Gramatical tem duas âncoras:

  • Âncora de entrada: use a âncora de entrada para conectar os dados de texto que você deseja analisar.

  • Âncora de saída: use a âncora de saída para passar os dados do texto marcado para etapas posteriores.

Configurar a ferramenta

  1. Adicione uma ferramenta Marcador de Classe Gramatical à tela.

  2. Use as âncoras para conectar a ferramenta Marcador de Classe Gramatical aos dados de texto que você deseja usar no fluxo de trabalho.

  3. Selecione o Idioma dos dados de texto.

  4. Selecione a Coluna com texto que deseja analisar.

  5. Clique no botão para Executar o fluxo de trabalho.

Saída

A ferramenta Marcador de Classe Gramatical faz a saída das colunas de entrada e de duas outras colunas:

  • part_of_speech_tags: esta coluna contém uma saída JSON com uma lista de marcas e descrições de classe gramatical. Cada token (palavra) em um corpus textual (onde cada linha na coluna de texto de entrada contém um corpus) contém os valores listados abaixo dentro da saída JSON.

    • text: a palavra marcada.

    • part_of_speech: o marcador de classe gramatical de granulação grossa.

    • part_of_speech_description: a descrição do marcador de classe gramatical de granulação grossa.

    • fine_grained_tag: o marcador de classe gramatical de granulação fina.

    • fine_grained_tag_description: a descrição do marcador de classe gramatical de granulação fina.

    • dependency: a dependência da classe gramatical.

    • dependency_description: a descrição da dependência da classe gramatical.

    • character_index: o índice do 1º caractere da palavra no corpus. O índice começa em 0.

    • word_index: o índice da palavra no corpus. O índice começa em 0.

    • text_length: o tamanho da palavra.

  • dependency_diagram: esta coluna contém um objeto HTML do diagrama de dependência do marcador displaCy que pode ser visualizado por meio da ferramenta Navegar.

Como separar a saída JSON

Para transformar a saída JSON em dados tabulares, use uma combinação das ferramentas Análise JSON , Texto para Colunas e Tabela de Referência Cruzada  como neste fluxo de exemplo:

  1. Passe a saída da ferramenta Marcador de Classe Gramatical para a entrada da ferramenta Análise JSON.

  2. Selecione a coluna "part_of_speech_tags" em Campo JSON .

  3. Selecione Fazer a saída dos valores em um único campo de cadeia de caracteres .

  4. Passe a saída da ferramenta Análise JSON para a entrada da ferramenta Texto para Colunas.

  5. Selecione a coluna "JSON_Name" em Coluna para dividir e defina Delimitadores como um ponto ( . ).

  6. Selecione Dividir em colunas e defina Número de colunas como 3 .

  7. Passe a saída da ferramenta Texto para Colunas para a entrada da ferramenta Tabela de Referência Cruzada.

  8. Configuração da ferramenta Tabela de Referência Cruzada:

    1. Agrupar dados por estes valores : selecione o nome da coluna que contém os dados de texto originais e a segunda coluna JSON_Name dividida (por padrão, é JSON_Name2 ).

    2. Alterar cabeçalhos de coluna : selecione a terceira coluna JSON_Name dividida (por padrão, é JSON_Name3 ).

    3. Valores para novas colunas : selecione JSON_ValueString .

    4. Método para agregar valores : selecione Concatenar .

  9. Execute o fluxo de trabalho. A saída da ferramenta Tabela de Referência Cruzada agora contém a forma tabular dos resultados da ferramenta Marcador de Classe Gramatical.

Diagrama de dependência

Segue um exemplo de diagrama de dependência para a frase em inglês "This is a sentence" ("Esta é uma frase"). A tag de classe gramatical de granulação grossa aparece abaixo de cada palavra. A descrição da tag de classe gramatical de granulação grossa está na saída JSON em "part_of_speech_description". Cada seta indica a dependência sintática entre duas palavras. A descrição de cada dependência está na saída JSON em "dependency_description".

Dependency Diagram Example

Descrições das tags de classe gramatical de granulação grossa para o diagrama de dependência acima:

  • AUX: auxiliar

  • DET: determinador

  • NOUN: substantivo

Descrições de dependência para o diagrama de dependência acima:

  • nsubj: sujeito nominal

  • attr: atributo

  • det: determinador

Perguntas frequentes

O diagrama é um elemento visual para ajudar o usuário a verificar as tags de classe gramatical. O diagrama também mostra como as palavras estão associadas. Nesse estágio, as dependências são apenas parte do elemento visual e não estão incluídas na saída.

Neste momento, a ferramenta Marcador de Classe Gramatical não funciona com as ferramentas de geração de relatórios. Por exemplo, não é possível salvar o diagrama de dependência como uma imagem.

O modelo é armazenado em cache na primeira execução e, portanto, a primeira execução será mais lenta. Para o mesmo texto, os fluxos de trabalho serão mais rápidos em execuções subsequentes. Observe que o cache expira e pode ser necessário que o ciclo comece novamente.