Skip to main content

speech_tagger70cb.png Créateur d'étiquette morpho-syntaxique

Utilisez l'outil Créateur d'étiquette morpho-syntaxique pour identifier les éléments morpho-syntaxiques du texte, tels que les noms, les verbes et les adjectifs. L'étiquetage morpho-syntaxique est une étape de traitement courante pour nettoyer, préparer et améliorer les données pour les applications de traitement du langage naturel. L'outil Créateur d'étiquette morpho-syntaxique exploite les capacités morpho-syntaxiques du package spaCy . La précision de l'étiquetage morpho-syntaxique pour l' anglais est d'environ 97 % et varie légèrement pour les autres langues prises en charge .

Alteryx Intelligence Suite requis

Cet outil fait partie de Alteryx Intelligence Suite . Intelligence Suite nécessite une licence séparée et un programme d'installation complémentaire pour Designer. Après avoir installé Designer, installez Intelligence Suite et commencez votre essai gratuit .

Prise en charge des langues

L'outil Créateur d'étiquette morpho-syntaxique prend en charge l'anglais, le français, l'allemand, l'italien, le portugais et l'espagnol. Les étiquettes morpho-syntaxiques de sortie ne sont disponibles qu'en anglais.

Composants de l'outil

L'outil Créateur d'étiquette morpho-syntaxique possède 2 ancrages :

  • Ancrage d’entrée : utilisez l’ancrage d’entrée pour connecter les données texte que vous souhaitez analyser.

  • Ancrage de sortie : utilisez l'ancrage de sortie pour transmettre les données de texte étiquetées en aval.

Configuration de l'outil

  1. Ajoutez un outil Créateur d'étiquette morpho-syntaxique au canevas.

  2. Utilisez les ancrages pour connecter l'outil Créateur d'étiquette morpho-syntaxique aux données de texte que vous souhaitez utiliser dans le workflow.

  3. Sélectionnez la Langue des données de texte.

  4. Sélectionnez la Colonne avec texte que vous souhaitez analyser.

  5. Exécutez le workflow.

Sortie

L'outil Créateur d'étiquette morpho-syntaxique affiche les colonnes entrantes en plus de 2 colonnes :

  • part_of_speech_tags : cette colonne contient une sortie JSON avec une liste d'étiquettes morpho-syntaxiques et de descriptions. Chaque jeton (mot) d'un corpus (où chaque ligne de la colonne de texte d'entrée contient un corpus) inclut les valeurs répertoriées ci-dessous dans la sortie JSON.

    • text : le mot étiqueté.

    • part_of_speech : l'étiquette morpho-syntaxique approximative.

    • part_of_speech_description : la description de l'étiquette morpho-syntaxique approximative.

    • fine_grained_tag : l'étiquette morpho-syntaxique précise.

    • fine_grained_tag_description : la description de l'étiquette morpho-syntaxique précise.

    • dependency : la dépendance morpho-syntaxique.

    • dependency_description : la description de la dépendance morpho-syntaxique.

    • character_index : l'index du premier caractère du mot dans le corpus. L'index commence à 0.

    • word_index : l'index du mot dans le corpus. L'index commence à 0.

    • text_length : la longueur du mot.

  • dependency_diagram : cette colonne contient un objet HTML du diagramme de dépendance correspondant au créateur d'étiquette displayCy qui peut être consulté via l'outil Parcourir.

Comment interpréter la sortie JSON

Pour transformer la sortie JSON en données tabulaires, utilisez une combinaison des outils Interpréter JSON , Texte en colonnes et Tableau croisé dynamique dans cet exemple de flux :

  1. Passez la sortie de l'outil Créateur d'étiquette morpho-syntaxique à l'entrée de l'outil Interpréter JSON.

  2. Sélectionnez la colonne morpho-syntaxique sous Champ JSON .

  3. Sélectionnez Sortie des valeurs dans un seul champ de type Chaîne .

  4. Passez la sortie de l'outil Interpréter JSON à l'entrée de Texte en colonnes.

  5. Sélectionnez la colonne Nom JSON sous Colonne à fractionner et définissez les Délimiteurs sur un point ( . ).

  6. Sélectionnez Fractionner en colonnes et définissez le Nombre de colonnes sur 3 .

  7. Passez la sortie de l'outil Texte en colonnes à l'entrée de l'outil Tableau croisé dynamique.

  8. Configuration de l'outil Tableau croisé dynamique :

    1. Grouper les données en fonction de ces valeurs  : sélectionnez le nom de colonne contenant vos données de texte d'origine et la deuxième colonne de nom JSON fractionnée (par défaut, JSON_Name2 ).

    2. Modifier les en-têtes de colonne  : sélectionnez la troisième colonne de nom JSON fractionnée (par défaut, JSON_Name3 ).

    3. Valeurs des nouvelles colonnes  : sélectionnez la JSON_ValueString .

    4. Méthode d'agrégation des valeurs  : sélectionnez Concaténer .

  9. Exécutez votre workflow. La sortie de l'outil Tableau croisé dynamique contient désormais la forme tabulaire de la sortie de l'outil Créateur d'étiquette morpho-syntaxique.

Diagramme de dépendance

Vous trouverez ci-dessous un exemple de diagramme de dépendance pour la phrase « Ceci est une phrase ». L'étiquette morpho-syntaxique approximative s'affiche sous chaque mot. La description de l'étiquette morpho-syntaxique approximative se trouve dans la sortie JSON sous « part_of_speech_description ». Chaque flèche indique la dépendance syntaxique entre deux mots. La description de chaque dépendance se trouve dans la sortie JSON sous « dependency_description ».

Dependency Diagram Example

Descriptions des étiquettes morpho-syntaxiques approximatives pour le diagramme de dépendance ci-dessus :

  • AUX : auxiliaire

  • DET : déterminant

  • NOM : nom

Descriptions des dépendances pour le diagramme des dépendances ci-dessus :

  • nsubj : groupe nominal sujet

  • attr : attribut

  • det : déterminant

FAQ

Le diagramme est visuel afin d'aider l'utilisateur à voir les étiquettes morpho-syntaxiques. Le diagramme illustre également la façon dont les mots sont associés. À ce stade, les dépendances ne sont qu'une partie du visuel et ne sont pas incluses dans la sortie.

Pour le moment, l'outil Créateur d'étiquette morpho-syntaxique ne fonctionne pas avec les outils de génération de rapports. Par exemple, vous ne pouvez pas enregistrer le diagramme de dépendance en tant qu'image.

Le modèle est mis en cache lors de la première exécution. Celle-ci sera par conséquent plus lente. Pour le même texte, les workflows seront plus rapides lors des exécutions suivantes. Notez que le cache expire et qu'il est possible que le cycle recommence.