Icon for the Topic Modeling Tool

Modélisation de thèmes

Version:
2022.3
Last modified: January 20, 2023

Utilisez l’outil Modélisation de thèmes pour identifier et catégoriser des thèmes dans un corps de texte. Envisagez d'utiliser l'outil Pré-traitement de texte en amont avant de transmettre des données à l'outil Modélisation de thèmes.

Cet outil fait partie de Alteryx Intelligence Suite. Intelligence Suite nécessite une licence séparée et un programme d'installation complémentaire pour Designer. Après avoir installé Designer, installez Intelligence Suite et commencez votre essai gratuit.

Prise en charge des langues

L'outil Modélisation de thèmes prend en charge l'anglais, le français, l'allemand, l'italien, le portugais et l'espagnol.

Composants de l'outil

L'outil Modélisation de thèmes comporte 3 ancrages :

  • Ancrage d’entrée : utilisez l’ancrage d’entrée pour vous connecter aux données de texte que vous souhaitez analyser.
  • Ancrage D : utilisez l'ancrage D pour passer les données que vous avez analysées en aval.
  • Ancrage R : utilisez l'ancrage R pour afficher un rapport de l'analyse.
  • Ancrage M : utilisez l'ancrage M pour passer l'objet modèle en aval afin de l'utiliser avec de nouvelles données. L'objet modèle est compatible avec l'outil Prédire.

Configurer l'outil

  1. Ajoutez un outil Modélisation de thèmes au canevas.
  2. Utilisez l'ancrage pour connecter l’outil Modélisation de thèmes aux données de texte que vous souhaitez utiliser dans le workflow.
  3. Sélectionnez le champ de texte que vous souhaitez analyser.
  4. Spécifiez le nombre de thèmes que vous souhaitez modéliser.
  5. Dans la section Options de sortie, sélectionnez le type de sortie souhaité dans l'ancrage R :
    • L’option Graphique interactif génère un rapport interactif qui comprend deux graphiques : top 30 des termes les plus saillants et une carte de distance entre les thèmes.
    • L’option Synthèse de la pertinence des mots génère un rapport statique avec des mesures de la saillance de chaque terme pour le modèle et de la pertinence de chaque thème.
  6. Les Options du dictionnaire et les Options LDA sont définies sur leurs valeurs par défaut. Pour plus d'informations sur ces options, reportez-vous à la section Options avancées ci-dessous.
  7. Exécutez le workflow.

Ressources

Cet outil utilise l'allocation de Dirichlet latente (LDA) pour identifier les thèmes. Voici quelques ressources sur l'algorithme LDA et les concepts de point essentiel et de pertinence.

Options avancées

L’outil Modélisation de thèmes a quelques options avancées.

Options du dictionnaire

Nom Description Options Option recommandée
Fréquence minimale La Fréquence minimale est la fréquence minimale à laquelle un mot peut apparaître dans un corps de texte avant que l'outil de Modélisation de thèmes ignore le mot, où la fréquence est mesurée par le nombre de documents contenant un mot, divisé par le nombre total de documents dans le corps du texte.
  • >= 0 %
  • <= 100 %
1 %
Fréquence maximale La fréquence maximale est la fréquence maximale à laquelle un mot peut apparaître dans un corps de texte avant que l'outil de Modélisation de thèmes ignore le mot, où la fréquence est mesurée par le nombre de documents contenant un mot, divisé par le nombre total de documents dans le corps du texte.
  • >= 0 %
  • <= 100 %
80 %
Nombre maximal de mots Le Nombre maximum de mots précise le nombre de mots que vous souhaitez que l'algorithme de l'outil Modélisation de thèmes considère, en fonction de la fréquence à laquelle les mots apparaissent dans tous les documents.
  • >= 0
0

Options LDA

Nom Description Options Option recommandée
Alpha Alpha représente la densité des thèmes que l’algorithme devrait attendre dans chaque document. L’augmentation d'Alpha permet à l’algorithme de reconnaître un plus grand nombre de thèmes distincts dans un document. La diminution d'Alpha limite le nombre de thèmes que l’algorithme reconnaît dans chaque document. Numéro Aucun
Eta Eta représente la densité des mots nécessaires pour créer un thème. L’augmentation de l'Eta augmente le nombre de mots nécessaires pour identifier un thème. La diminution de l'Eta réduit le nombre de mots nécessaires pour identifier un thème. Numéro >= 0

Sortie

L'ancrage D génère une nouvelle colonne pour chaque thème. Les colonnes indiquent le degré de présence de chaque thème dans le texte associé à chaque ligne. Une valeur plus élevée dans la colonne de thème indique une probabilité plus élevée que le texte soit associé à ce thème. L'ancrage Rancrage R génère l'un des deux rapports en fonction de votre sélection : soit un graphique interactif avec les 30 termes les plus saillants et la carte de distance entre les thèmes, soit un résumé de la pertinence du mot qui mesure la prépondérance de chaque terme par rapport au modèle et la pertinence par rapport à chaque thème. L'ancrage M affiche un objet modèle en aval pour une utilisation avec de nouvelles données. L'objet modèle est compatible avec l'outil Prédire.

Cette page vous a-t-elle été utile ?

Vous rencontrez des problèmes avec votre produit Alteryx ? Visitez la communauté Alteryx ou contactez le  support. Vous n'arrivez pas à soumettre ce formulaire ? Envoyez-nous un e-mail.