Icon for the Topic Modeling Tool

Modelagem de Tópicos

Versão:
2023.1
Last modified: January 27, 2023

Use a ferramenta Modelagem de Tópicos para identificar e categorizar tópicos em um corpus textual. Considere o uso da ferramenta Pré-processamento de Texto antes de passar os dados para a ferramenta Modelagem de Tópicos.

Esta ferramenta faz parte do Alteryx Intelligence Suite. O Intelligence Suite exige uma licença separada e um instalador complementar para o Designer. Depois de instalar o Designer, instale o Intelligence Suite e inicie sua avaliação gratuita.

Suporte a idiomas

A ferramenta Modelagem de Tópicos é compatível com inglês, francês, alemão, italiano, português e espanhol.

Componentes da ferramenta

A ferramenta Modelagem de Tópicos tem três âncoras:

  • Âncora de entrada: use a âncora de entrada para conectar os dados de texto que você deseja analisar.
  • Âncora D: use a âncora D para passar os dados analisados para etapas posteriores do fluxo de trabalho.
  • Âncora R: use a âncora R para ver um relatório da análise.
  • Âncora M: use a âncora M para passar o objeto de modelo para a etapa seguinte para uso com novos dados. O objeto de modelo é compatível com a ferramenta Previsão.

Configurar a ferramenta

  1. Adicione a ferramenta Modelagem de Tópicos à tela.
  2. Use a âncora de entrada para conectar a ferramenta Modelagem de Tópicos aos dados de texto que você deseja utilizar no fluxo de trabalho.
  3. Selecione o Campo de texto que deseja analisar.
  4. Especifique o Número de tópicos que deseja modelar.
  5. Na seção Opções de saída, selecione o tipo de saída desejada na âncora R:
    • A opção Gráfico interativo gera um relatório interativo que inclui dois gráficos: os 30 termos mais salientes e um mapa de distância entre os tópicos.
    • A opção Resumo de relevância das palavras gera um relatório estático com medidas da saliência de cada termo para o modelo e da relevância de cada tópico.
  6. As Opções de dicionário e as Opções de LDA estão com seus valores padrão. Para obter mais informações sobre essas opções, consulte a seção "Opções avançadas" abaixo.
  7. Execute o fluxo de trabalho.

Recursos

Essa ferramenta usa a Alocação Latente de Dirichlet (LDA) para identificar tópicos. Aqui estão alguns recursos sobre o algoritmo LDA e os conceitos de saliência e relevância.

Opções avançadas

A ferramenta Modelagem de Tópicos tem algumas opções avançadas.

Opções de dicionário

Nome Descrição Opções Opção recomendada
Frequência mínima É a frequência mínima na qual uma palavra pode aparecer em um corpus textual antes que a ferramenta Modelagem de Tópicos a ignore. Essa frequência é medida pelo número de documentos que contêm uma palavra dividido pelo número total de documentos no corpus textual.
  • >= 0%
  • <= 100%
1%
Frequência máxima É a frequência máxima na qual uma palavra pode aparecer em um corpus textual antes que a ferramenta Modelagem de Tópicos a ignore. Essa frequência é medida pelo número de documentos que contêm uma palavra dividido pelo número total de documentos no corpus textual.
  • >= 0%
  • <= 100%
80%
Máximo de palavras Máximo de palavras especifica quantas palavras você deseja que o algoritmo da ferramenta Modelagem de Tópicos considere, com base na frequência com que as palavras aparecem ao longo de todos os documentos.
  • >= 0
0

Opções de LDA

Nome Descrição Opções Opção recomendada
Alpha Alpha representa a densidade de tópicos que o algoritmo deve esperar em cada documento. Aumentar o Alpha permite que o algoritmo reconheça um número maior de tópicos distintos em um documento. Diminuir o Alpha limita o número de tópicos que o algoritmo reconhece em cada documento. Número Nenhum
Eta Eta representa a densidade de palavras necessárias para compor um tópico. Aumentar o Eta aumenta o número de palavras necessárias para identificar um tópico. Diminuir o Eta reduz o número de palavras necessárias para identificar um tópico. Número >= 0

Saída

A âncora D produz uma nova coluna para cada tópico. As colunas representam em qual grau cada tópico está presente no texto associado a cada linha. Um valor mais alto na coluna do tópico indica uma maior probabilidade de o texto ser associado a esse tópico. A âncora R gera um dos dois relatórios com base na sua seleção: um Gráfico Interativo com os 30 termos mais salientes e um mapa de distância entre os tópicos, ou um Resumo de relevância das palavras com medidas da saliência de cada termo para o modelo e sua relevância para cada tópico A âncora M envia um objeto de modelo para a saída para uso com novos dados. O objeto de modelo é compatível com a ferramenta Previsão.

Esta página foi útil?

Problemas com seu produto Alteryx? Visite a Comunidade Alteryx ou entre em contato com nossa Equipe de Suporte. Não é possível enviar este formulário? Envie-nos um e-mail.