Modelagem de Tópicos
Use a ferramenta Modelagem de Tópicos para identificar e categorizar tópicos em um corpus textual. Considere o uso da ferramenta Pré-processamento de Texto antes de passar os dados para a ferramenta Modelagem de Tópicos.
Requer o Alteryx Intelligence Suite
Esta ferramenta faz parte do Alteryx Intelligence Suite . O Intelligence Suite exige uma licença separada e um instalador complementar para o Designer. Depois de instalar o Designer, instale o Intelligence Suite e inicie sua avaliação gratuita .
Suporte a idiomas
A ferramenta Modelagem de Tópicos é compatível com inglês, francês, alemão, italiano, português e espanhol.
Componentes da ferramenta
A ferramenta Modelagem de Tópicos tem três âncoras:
Âncora de entrada: use a âncora de entrada para conectar os dados de texto que você deseja analisar.
Âncora D : use a âncora D para passar os dados analisados para etapas posteriores do fluxo de trabalho.
Âncora R : use a âncora R para ver um relatório da análise.
Âncora M : use a âncora M para passar o objeto de modelo para a etapa seguinte para uso com novos dados. O objeto de modelo é compatível com a ferramenta Previsão .
Configurar a ferramenta
Adicione a ferramenta Modelagem de Tópicos à tela.
Use a âncora de entrada para conectar a ferramenta Modelagem de Tópicos aos dados de texto que você deseja utilizar no fluxo de trabalho.
Selecione o Campo de texto que deseja analisar.
Especifique o Número de tópicos que deseja modelar.
Na seção Opções de saída , selecione o tipo de saída desejada na âncora R :
A opção Gráfico interativo gera um relatório interativo que inclui dois gráficos: os 30 termos mais salientes e um mapa de distância entre os tópicos.
A opção Resumo de relevância das palavras gera um relatório estático com medidas da saliência de cada termo para o modelo e da relevância de cada tópico.
As Opções de dicionário e as Opções de LDA estão com seus valores padrão. Para obter mais informações sobre essas opções, consulte a seção "Opções avançadas" abaixo.
Clique no botão para Executar o fluxo de trabalho.
Recursos
Essa ferramenta usa a Alocação Latente de Dirichlet (LDA) para identificar tópicos. Aqui estão alguns recursos sobre o algoritmo LDA e os conceitos de saliência e relevância .
Opções avançadas
A ferramenta Modelagem de Tópicos tem algumas opções avançadas.
Opções de dicionário
Nome | Descrição | Opções | Opção recomendada |
---|---|---|---|
Frequência mínima | É a frequência mínima na qual uma palavra pode aparecer em um corpus textual antes que a ferramenta Modelagem de Tópicos a ignore. Essa frequência é medida pelo número de documentos que contêm uma palavra dividido pelo número total de documentos no corpus textual. |
| 1% |
Frequência máxima | É a frequência máxima na qual uma palavra pode aparecer em um corpus textual antes que a ferramenta Modelagem de Tópicos a ignore. Essa frequência é medida pelo número de documentos que contêm uma palavra dividido pelo número total de documentos no corpus textual. |
| 80% |
Máximo de palavras | Máximo de palavras especifica quantas palavras você deseja que o algoritmo da ferramenta Modelagem de Tópicos considere, com base na frequência com que as palavras aparecem ao longo de todos os documentos. |
| 0 |
Opções de LDA
Nome | Descrição | Opções | Opção recomendada |
---|---|---|---|
Alpha | Alpha representa a densidade de tópicos que o algoritmo deve esperar em cada documento. Aumentar o Alpha permite que o algoritmo reconheça um número maior de tópicos distintos em um documento. Diminuir o Alpha limita o número de tópicos que o algoritmo reconhece em cada documento. | Número | Nenhum |
Eta | Eta representa a densidade de palavras necessárias para compor um tópico. Aumentar o Eta aumenta o número de palavras necessárias para identificar um tópico. Diminuir o Eta reduz o número de palavras necessárias para identificar um tópico. | Número | >= 0 |
Saída
A âncora D produz uma nova coluna para cada tópico. As colunas representam em qual grau cada tópico está presente no texto associado a cada linha. Um valor mais alto na coluna do tópico indica uma maior probabilidade de o texto ser associado a esse tópico. A âncora R faz a saída de um destes relatórios com base na sua seleção:
Gráfico interativo : retorna uma visualização interativa do modelo que você pode examinar com a ferramenta Navegar . O gráfico interativo tem duas partes: um mapa com a distância entre os tópicos e métricas para avaliação. O mapa da distância entre os tópicos mostra o quão semelhantes os tópicos identificados são entre si.
Resumo de relevância das palavras : retorna as palavras incluídas no modelo de tópicos, assim como métricas de relevância e saliência. Saliência se refere ao quão proeminente é a palavra dentro do texto geral. Relevância é uma métrica usada para ordenar palavras dentro de tópicos, nos ajudando a identificar as palavras apropriadas para cada tópico. Quanto maior o valor de relevância para um determinado tópico, mais importante é essa palavra para esse tópico.
A âncora M envia um objeto de modelo para a saída para uso com novos dados. O objeto de modelo é compatível com a ferramenta Previsão .