Modélisation de thèmes
Utilisez l’outil Modélisation de thèmes pour identifier et catégoriser des thèmes dans un corps de texte. Envisagez d'utiliser l' outil Pré-traitement de texte en amont avant de transmettre des données à l'outil Modélisation de thèmes.
Alteryx Intelligence Suite requis
Cet outil fait partie de Alteryx Intelligence Suite . Intelligence Suite nécessite une licence séparée et un programme d'installation complémentaire pour Designer. Après avoir installé Designer, installez Intelligence Suite et commencez votre essai gratuit .
Prise en charge des langues
L'outil Modélisation de thèmes prend en charge l'anglais, le français, l'allemand, l'italien, le portugais et l'espagnol.
Composants de l'outil
L'outil Modélisation de thèmes comporte 3 ancrages :
Ancrage d’entrée : utilisez l’ancrage d’entrée pour connecter les données texte que vous souhaitez analyser.
Ancrage D : utilisez l'ancrage D pour passer les données que vous avez analysées en aval.
Ancrage R : utilisez l'ancrage R pour afficher un rapport de l'analyse.
Ancrage M : utilisez l'ancrage M pour passer l'objet modèle en aval afin de l'utiliser avec de nouvelles données. L'objet modèle est compatible avec l' outil Prédire .
Configuration de l'outil
Ajoutez un outil Modélisation de thèmes au canevas.
Utilisez l'ancrage pour connecter l’outil Modélisation de thèmes aux données de texte que vous souhaitez utiliser dans le workflow.
Sélectionnez le Champ de texte que vous souhaitez analyser.
Spécifiez le nombre de thèmes que vous souhaitez modéliser.
Dans la section Options de sortie , sélectionnez le type de sortie souhaité dans l'ancrage R :
L’option Graphique interactif génère un rapport interactif qui comprend deux graphiques : top 30 des termes les plus saillants et une carte de distance entre les thèmes.
L’option Synthèse de la pertinence des mots génère un rapport statique avec des mesures de la saillance de chaque terme pour le modèle et de la pertinence de chaque thème.
Les Options du dictionnaire et les Options LDA sont définies sur leurs valeurs par défaut. Pour plus d'informations sur ces options, reportez-vous à la section Options avancées ci-dessous.
Exécutez le workflow.
Ressources
Cet outil utilise l'allocation de Dirichlet latente (LDA) pour identifier les thèmes. Voici quelques ressources sur l' algorithme LDA et les concepts de point essentiel et de pertinence .
Options avancées
L’outil Modélisation de thèmes a quelques options avancées.
Options du dictionnaire
Nom | Description | Options | Option recommandée |
---|---|---|---|
Fréquence minimale | La Fréquence minimale est la fréquence minimale à laquelle un mot peut apparaître dans un corps de texte avant que l'outil de Modélisation de thèmes ignore le mot, où la fréquence est mesurée par le nombre de documents contenant un mot, divisé par le nombre total de documents dans le corps du texte. |
| 1 % |
Fréquence maximale | La fréquence maximale est la fréquence maximale à laquelle un mot peut apparaître dans un corps de texte avant que l'outil de Modélisation de thèmes ignore le mot, où la fréquence est mesurée par le nombre de documents contenant un mot, divisé par le nombre total de documents dans le corps du texte. |
| 80 % |
Nombre maximal de mots | Le Nombre maximum de mots précise le nombre de mots que vous souhaitez que l'algorithme de l'outil Modélisation de thèmes considère, en fonction de la fréquence à laquelle les mots apparaissent dans tous les documents. |
| 0 |
Options LDA
Nom | Description | Options | Option recommandée |
---|---|---|---|
Alpha | Alpha représente la densité des thèmes que l’algorithme devrait attendre dans chaque document. L’augmentation d' Alpha permet à l’algorithme de reconnaître un plus grand nombre de thèmes distincts dans un document. La diminution d' Alpha limite le nombre de thèmes que l’algorithme reconnaît dans chaque document. | Numéro | Aucun |
Eta | Eta représente la densité des mots nécessaires pour créer un thème. L’augmentation de l' Eta augmente le nombre de mots nécessaires pour identifier un thème. La diminution de l' Eta réduit le nombre de mots nécessaires pour identifier un thème. | Numéro | >= 0 |
Sortie
L'ancrage D génère une nouvelle colonne pour chaque thème. Les colonnes indiquent le degré de présence de chaque thème dans le texte associé à chaque ligne. Une valeur plus élevée dans la colonne de thème indique une probabilité plus élevée que le texte soit associé à ce thème. L'ancrage R génère l'un des deux rapports suivants en fonction de votre sélection :
L'option Graphique interactif renvoie une visualisation interactive du modèle que vous pouvez afficher à l'aide d'un outil Explorateur. Le graphique interactif comporte 2 parties : une carte avec la distance entre les thèmes et quelques métriques d'évaluation. La carte distance entre les thèmes montre à quel point les thèmes identifiés sont similaires.
L'option Synthèse de la pertinence des mots renvoie les mots inclus dans le modèle de thème ainsi que les métriques de pertinence et du point essentiel. Le point essentiel correspond à l'importance du mot dans l'ensemble du texte. La pertinence est utilisée pour classer les mots dans les thèmes et aide à identifier les mots les plus appropriés pour chaque thème. Plus la valeur est élevée pour un thème donné, plus ce mot est important pour ce thème.
L'ancrage M affiche un objet modèle en aval pour une utilisation avec de nouvelles données. L'objet modèle est compatible avec l' outil Prédire .