Skip to main content

Icon for the Topic Modeling Tool Modelagem de Tópicos

Use a ferramenta Modelagem de Tópicos para identificar e categorizar tópicos em um corpus textual. Considere o uso da ferramenta Pré-processamento de Texto  antes de passar os dados para a ferramenta Modelagem de Tópicos.

Requer o Alteryx Intelligence Suite

Esta ferramenta faz parte do Alteryx Intelligence Suite . O Intelligence Suite exige uma licença separada e um instalador complementar para o Designer. Depois de instalar o Designer, instale o Intelligence Suite e inicie sua avaliação gratuita .

Suporte a idiomas

A ferramenta Modelagem de Tópicos é compatível com inglês, francês, alemão, italiano, português e espanhol.

Componentes da ferramenta

A ferramenta Modelagem de Tópicos tem três âncoras:

  • Âncora de entrada: use a âncora de entrada para conectar os dados de texto que você deseja analisar.

  • Âncora D : use a âncora D  para passar os dados analisados para etapas posteriores do fluxo de trabalho.

  • Âncora R : use a âncora R  para ver um relatório da análise.

  • Âncora M : use a âncora  M  para passar o objeto de modelo para a etapa seguinte para uso com novos dados. O objeto de modelo é compatível com a ferramenta Previsão .

Configurar a ferramenta

  1. Adicione a ferramenta Modelagem de Tópicos à tela.

  2. Use a âncora de entrada para conectar a ferramenta Modelagem de Tópicos aos dados de texto que você deseja utilizar no fluxo de trabalho.

  3. Selecione o Campo de texto que deseja analisar.

  4. Especifique o Número de tópicos que deseja modelar.

  5. Na seção Opções de saída , selecione o tipo de saída desejada na âncora R :

    • A opção Gráfico interativo gera um relatório interativo que inclui dois gráficos: os 30 termos mais salientes e um mapa de distância entre os tópicos.

    • A opção Resumo de relevância das palavras gera um relatório estático com medidas da saliência de cada termo para o modelo e da relevância de cada tópico.

  6. As Opções de dicionário  e as  Opções de LDA estão com seus valores padrão. Para obter mais informações sobre essas opções, consulte a seção "Opções avançadas" abaixo.

  7. Clique no botão para Executar o fluxo de trabalho.

Recursos

Essa ferramenta usa a Alocação Latente de Dirichlet (LDA) para identificar tópicos. Aqui estão alguns recursos sobre o algoritmo LDA e os conceitos de  saliência e relevância .

Opções avançadas

A ferramenta Modelagem de Tópicos tem algumas opções avançadas.

Opções de dicionário

Nome

Descrição

Opções

Opção recomendada

Frequência mínima

É a frequência mínima na qual uma palavra pode aparecer em um corpus textual antes que a ferramenta Modelagem de Tópicos a ignore. Essa frequência é medida pelo número de documentos que contêm uma palavra dividido pelo número total de documentos no corpus textual.

  • >= 0%

  • <= 100%

1%

Frequência máxima

É a frequência máxima na qual uma palavra pode aparecer em um corpus textual antes que a ferramenta Modelagem de Tópicos a ignore. Essa frequência é medida pelo número de documentos que contêm uma palavra dividido pelo número total de documentos no corpus textual.

  • >= 0%

  • <= 100%

80%

Máximo de palavras

Máximo de palavras  especifica quantas palavras você deseja que o algoritmo da ferramenta Modelagem de Tópicos considere, com base na frequência com que as palavras aparecem ao longo de todos os documentos.

  • >= 0

0

Opções de LDA

Nome

Descrição

Opções

Opção recomendada

Alpha

Alpha representa a densidade de tópicos que o algoritmo deve esperar em cada documento. Aumentar o Alpha permite que o algoritmo reconheça um número maior de tópicos distintos em um documento. Diminuir o Alpha limita o número de tópicos que o algoritmo reconhece em cada documento.

Número

Nenhum

Eta

Eta representa a densidade de palavras necessárias para compor um tópico. Aumentar o Eta aumenta o número de palavras necessárias para identificar um tópico. Diminuir o Eta reduz o número de palavras necessárias para identificar um tópico.

Número

>= 0

Saída

A âncora  D  produz uma nova coluna para cada tópico. As colunas representam em qual grau cada tópico está presente no texto associado a cada linha. Um valor mais alto na coluna do tópico indica uma maior probabilidade de o texto ser associado a esse tópico. A âncora R faz a saída de um destes relatórios com base na sua seleção:

  • Gráfico interativo : retorna uma visualização interativa do modelo que você pode examinar com a ferramenta Navegar . O gráfico interativo tem duas partes: um mapa com a distância entre os tópicos e métricas para avaliação. O mapa da distância entre os tópicos mostra o quão semelhantes os tópicos identificados são entre si.

  • Resumo de relevância das palavras : retorna as palavras incluídas no modelo de tópicos, assim como métricas de relevância e saliência. Saliência se refere ao quão proeminente é a palavra dentro do texto geral. Relevância é uma métrica usada para ordenar palavras dentro de tópicos, nos ajudando a identificar as palavras apropriadas para cada tópico. Quanto maior o valor de relevância para um determinado tópico, mais importante é essa palavra para esse tópico.

A âncora  M  envia um objeto de modelo para a saída para uso com novos dados. O objeto de modelo é compatível com a ferramenta Previsão .