Modelado de tópicos
Utiliza la herramienta Modelado de tópicos para identificar y categorizar tópicos en un cuerpo de texto. Considera la posibilidad de utilizar la herramienta Preprocesamiento de texto en las herramientas anteriores del flujo de trabajo antes de pasar datos a la herramienta Modelado de tópicos.
Se requiere Alteryx Intelligence Suite
Esta herramienta forma parte de Alteryx Intelligence Suite . Alteryx Intelligence Suite requiere una licencia independiente y un instalador de complemento para Designer. Después de instalar Alteryx Designer, instala Alteryx Intelligence Suite e inicia la prueba gratuita .
Idiomas compatibles
La herramienta Modelado de tópicos funciona con los idiomas inglés, francés, alemán, italiano, portugués y español.
Componentes de la herramienta
La herramienta Modelado de tópicos tiene tres anclas:
Ancla de entrada: utiliza esta ancla para conectar los datos de texto que quieres analizar.
Ancla D : utiliza esta ancla para pasar los datos analizados a herramientas posteriores del flujo de trabajo.
Ancla R : utiliza esta ancla para visualizar un informe del análisis.
Ancla M : utiliza esta ancla para pasar el objeto de modelo en las herramientas posteriores en el flujo de trabajo para utilizarlo con nuevos datos. El objeto de modelo es compatible con la herramienta Predecir .
Configurar la herramienta
Agrega una herramienta Modelado de tópicos al lienzo.
Utiliza el ancla para conectar la herramienta Modelado de tópicos a los datos de texto que quieres utilizar en el flujo de trabajo.
Selecciona el Campo de texto que quieres analizar.
Especifica la Cantidad de tópicos que quieres modelar.
En la sección Opciones de salida , selecciona el tipo de salida que quieres en el ancla R :
La opción Gráfico interactivo genera un informe interactivo con dos gráficos: los 30 términos con mayor prominencia y el mapa de distancia intertópico.
La opción Resumen de relevancia de palabras genera un informe estático con medidas de prominencia para cada término en el modelo y la relevancia a cada tópico.
Las opciones de diccionario y LDA tienen sus valores predeterminados. Para obtener más información sobre estas opciones, consulta la sección Opciones avanzadas a continuación.
Ejecuta el flujo de trabajo.
Recursos
Esta herramienta utiliza la asignación de Dirichlet latente (LDA) para identificar temas. Estos son algunos recursos sobre el algoritmo de LDA y los conceptos de prominencia y relevancia .
Opciones avanzadas
La herramienta Modelado de tópicos tiene algunas opciones avanzadas.
Opciones de diccionario
Nombre | Descripción | Opciones | Opción recomendada |
---|---|---|---|
Frecuencia mínima | La Frecuencia mínima es la frecuencia mínima con la que una palabra puede aparecer en un cuerpo de texto antes de que la herramienta Modelado de tópicos ignore la palabra. La frecuencia se mide por el número de documentos que contienen una palabra dividido por el número total de documentos en el cuerpo de texto. |
| 1% |
Frecuencia máxima | La Frecuencia máxima es la frecuencia máxima con la que una palabra puede aparecer en un cuerpo de texto antes de que la herramienta Modelado de tópicos ignore la palabra. La frecuencia se mide por el número de documentos que contienen una palabra dividido por el número total de documentos en el cuerpo de texto. |
| 80% |
Máximo de palabras | El Máximo de palabras especifica cuántas palabras quieres que el algoritmo la herramienta Modelado de tópicos tenga en cuenta según la frecuencia con la que aparecen las palabras en todos los documentos. |
| 0 |
Opciones de LDA
Nombre | Descripción | Opciones | Opción recomendada |
---|---|---|---|
Alpha | Alpha representa la densidad de tópicos que el algoritmo debe esperar en cada documento. Aumentar Alpha permite que el algoritmo reconozca una mayor cantidad de tópicos únicos en un documento. Disminuir Alpha limita el número de tópicos que el algoritmo reconoce en cada documento. | Número | Ninguno |
Eta | Eta representa la densidad de palabras necesarias para componer un tópico. Aumentar Eta aumenta la cantidad de palabras necesarias para identificar un tópico. Disminuir Eta reduce la cantidad de palabras necesarias para identificar un tópico. | Número | >= 0 |
Salida
El ancla D genera una nueva columna para cada tópico. Las columnas representan el grado en que cada tópico está presente en el texto asociado a cada fila. Un valor más alto en la columna de temas indica una mayor probabilidad de que el texto se asocie a ese tema. El ancla R genera uno de dos informes según tu selección:
La opción Gráfico interactivo genera una visualización interactiva del modelo que puedes ver con la herramienta Examinar . El gráfico interactivo tiene dos partes, un mapa con la distancia entre los tópicos y algunas métricas para la evaluación. En el mapa de distancia entre los tópicos, se nos muestra qué tan similares son los tópicos identificados.
El resumen de relevancia de palabras genera las palabras incluidas en el modelo de tópicos, así como las métricas de relevancia y prominencia. La prominencia es lo prominente que es la palabra en el texto general. La relevancia es una métrica que se utiliza para ordenar palabras dentro de los tópicos y nos ayuda a identificar las palabras más adecuadas para cada tópico. Cuanto más alto sea el valor de un tópico determinado, más importante es esa palabra para ese tópico.
El ancla M genera un objeto de modelo en las herramientas posteriores en el flujo de trabajo para utilizarlo con nuevos datos. El objeto de modelo es compatible con la herramienta Predecir .