
Modelagem de Tópicos
Use a ferramenta Modelagem de Tópicos para identificar e categorizar tópicos em um corpus textual. Considere o uso da ferramenta Pré-processamento de Texto antes de passar os dados para a ferramenta Modelagem de Tópicos.
Esta ferramenta faz parte do Alteryx Intelligence Suite. O Intelligence Suite exige uma licença separada e um instalador complementar para o Designer. Depois de instalar o Designer, instale o Intelligence Suite e inicie sua avaliação gratuita.
Suporte a idiomas
A ferramenta Modelagem de Tópicos é compatível com inglês, francês, alemão, italiano, português e espanhol.
Componentes da ferramenta
A ferramenta Modelagem de Tópicos tem três âncoras:
- Âncora de entrada: use a âncora de entrada para conectar os dados de texto que você deseja analisar.
- Âncora D: use a âncora D para passar os dados analisados para etapas posteriores do fluxo de trabalho.
- Âncora R: use a âncora R para ver um relatório da análise.
- Âncora M: use a âncora M para passar o objeto de modelo para a etapa seguinte para uso com novos dados. O objeto de modelo é compatível com a ferramenta Previsão.
Configurar a ferramenta
- Adicione a ferramenta Modelagem de Tópicos à tela.
- Use a âncora de entrada para conectar a ferramenta Modelagem de Tópicos aos dados de texto que você deseja utilizar no fluxo de trabalho.
- Selecione o Campo de texto que deseja analisar.
- Especifique o Número de tópicos que deseja modelar.
- Na seção Opções de saída, selecione o tipo de saída desejada na âncora R:
- A opção Gráfico interativo gera um relatório interativo que inclui dois gráficos: os 30 termos mais salientes e um mapa de distância entre os tópicos.
- A opção Resumo de relevância das palavras gera um relatório estático com medidas da saliência de cada termo para o modelo e da relevância de cada tópico.
- As Opções de dicionário e as Opções de LDA estão com seus valores padrão. Para obter mais informações sobre essas opções, consulte a seção "Opções avançadas" abaixo.
- Execute o fluxo de trabalho.
Recursos
Essa ferramenta usa a Alocação Latente de Dirichlet (LDA) para identificar tópicos. Aqui estão alguns recursos sobre o algoritmo LDA e os conceitos de saliência e relevância.
Opções avançadas
A ferramenta Modelagem de Tópicos tem algumas opções avançadas.
Opções de dicionário
Nome | Descrição | Opções | Opção recomendada |
---|---|---|---|
Frequência mínima | É a frequência mínima na qual uma palavra pode aparecer em um corpus textual antes que a ferramenta Modelagem de Tópicos a ignore. Essa frequência é medida pelo número de documentos que contêm uma palavra dividido pelo número total de documentos no corpus textual. |
|
1% |
Frequência máxima | É a frequência máxima na qual uma palavra pode aparecer em um corpus textual antes que a ferramenta Modelagem de Tópicos a ignore. Essa frequência é medida pelo número de documentos que contêm uma palavra dividido pelo número total de documentos no corpus textual. |
|
80% |
Máximo de palavras | Máximo de palavras especifica quantas palavras você deseja que o algoritmo da ferramenta Modelagem de Tópicos considere, com base na frequência com que as palavras aparecem ao longo de todos os documentos. |
|
0 |
Opções de LDA
Nome | Descrição | Opções | Opção recomendada |
---|---|---|---|
Alpha | Alpha representa a densidade de tópicos que o algoritmo deve esperar em cada documento. Aumentar o Alpha permite que o algoritmo reconheça um número maior de tópicos distintos em um documento. Diminuir o Alpha limita o número de tópicos que o algoritmo reconhece em cada documento. | Número | Nenhum |
Eta | Eta representa a densidade de palavras necessárias para compor um tópico. Aumentar o Eta aumenta o número de palavras necessárias para identificar um tópico. Diminuir o Eta reduz o número de palavras necessárias para identificar um tópico. | Número | >= 0 |
Saída
A âncora D produz uma nova coluna para cada tópico. As colunas representam em qual grau cada tópico está presente no texto associado a cada linha. Um valor mais alto na coluna do tópico indica uma maior probabilidade de o texto ser associado a esse tópico. A âncora R gera um dos dois relatórios com base na sua seleção: um Gráfico Interativo com os 30 termos mais salientes e um mapa de distância entre os tópicos, ou um Resumo de relevância das palavras com medidas da saliência de cada termo para o modelo e sua relevância para cada tópico A âncora M envia um objeto de modelo para a saída para uso com novos dados. O objeto de modelo é compatível com a ferramenta Previsão.