Pré-traitement de texte

Utilisez l’outil Pré-traitement de texte pour nettoyer les données de texte :

Convertir les mots à leurs racines (en d’autres termes, lemmatisation).
Filtrer les chiffres indésirables, la ponctuation et les mots vides.

Alteryx Intelligence Suite requis

Cet outil fait partie de Alteryx Intelligence Suite . Intelligence Suite nécessite une licence séparée et un programme d'installation complémentaire pour Designer. Après avoir installé Designer, installez Intelligence Suite et commencez votre essai gratuit .

Important

À partir de la version 21.4, l'outil Pré-traitement de texte supprime correctement les pronoms lorsque vous sélectionnez Utiliser les mots vides par défaut . Auparavant, l'outil remplaçait les pronoms par l'expression -PRON-.

Prise en charge des langues

L'outil Pré-traitement de texte prend en charge l'anglais, le français, l'allemand, l'italien, le portugais et l'espagnol.

Composants de l'outil

L'outil de Pré-traitement de texte comporte trois ancrages.

Ancrage d'entrée vert : utilisez l'ancrage d'entrée vert en haut pour connecter les données de texte que vous souhaitez traiter.
Ancrage d'entrée gris : utilisez l'ancrage d'entrée gris en bas pour transmettre une liste de mots vides à partir d'une liste. Nous vous recommandons d'utiliser le format CSV, mais la liste peut avoir n'importe quel format d'entrée, à condition que les mots vides soient listés dans une seule colonne avec un mot par ligne.
Ancrage de sortie : utilisez l’ancrage de sortie pour passer les données que vous avez traitées en aval.

Configuration de l'outil

Ajoutez un outil Pré-traitement de texte au canevas.
Utilisez l'ancrage pour connecter l'outil Pré-traitement de texte aux données de texte que vous souhaitez utiliser dans le workflow.
Identifiez la langue des données.
Sélectionnez le champ de texte que vous souhaitez utiliser.
Exécutez le workflow.

Options avancées

L’outil Pré-traitement de texte a quelques options avancées

Normalisation du texte

Pour convertir les mots à leurs racines, cochez la case Convertir en racine du mot (lemmatisation) .

Cette option convertit les mots dérivés en mots racines. Par exemple, les mots « course », « court » et « coureur » sont tous convertis en mot « courir » après leur lemmatisation. Ainsi, lorsque vous appliquez un algorithme de Machine Learning pour analyser les mots, vous automatisez la détection et le regroupement de ces mots.

Filtrer

Pour supprimer les chiffres, cochez la case Chiffres . cette option supprime certains jetons numériques (c'est-à-dire, les chiffres) des données. Il peut être utile de sélectionner cette option parce que les nombres peuvent confondre certains algorithmes de traitement du langage naturel.

Pour enlever la ponctuation, cochez la case Ponctuation . Cette option supprime la ponctuation des données. Vous voudrez peut-être sélectionner cette option parce que la ponctuation peut confondre certains algorithmes NLP. Certains jetons de ponctuation - comme le point dans « M. » - sont conservés parce qu'ils sont significatifs.

Pour supprimer les mots vides, cochez la case Mots vides . Certains mots vides sont supprimés par défaut. L’outil Pré-traitement de texte utilise le package spaCy par défaut. spaCy a différentes listes de mots vides pour différentes langues. Vous pouvez voir la liste complète des mots vides pour chaque langue dans le spaCy GitHub repo :

Vous pouvez également supprimer les mots vides qui ne sont pas supprimés par défaut. Entrez les mots vides que vous souhaitez supprimer dans le champ de texte. Insérez-les dans un format séparé par une virgule (c’est-à-dire séparez chaque mot vide avec une virgule et un espace dans cet ordre).

Sortie

Dans la grille de résultats, l’outil crée une nouvelle colonne dans les données avec le nom de la colonne que vous avez traitée ainsi que le suffixe « _processed ».