Skip to main content

Text Classification Tool Icon Classification du texte

L'outil Classification du texte entraîne et produit un modèle de classification de texte basé sur vos données d'entraînement. Connectez le modèle à l'outil Prédire pour classer les nouvelles données de texte non visibles.

Alteryx Intelligence Suite requis

Cet outil fait partie de Alteryx Intelligence Suite . Intelligence Suite nécessite une licence séparée et un programme d'installation complémentaire pour Designer. Après avoir installé Designer, installez Intelligence Suite et commencez votre essai gratuit .

Prise en charge des langues

L'outil Classification du texte prend en charge l'anglais, le français, l'allemand, l'italien, le portugais et l'espagnol.

Composants de l'outil

L'outil Classification du texte comporte 4 ancrages (2 entrées et 2 sorties) :

  • Ancrage d'entrée  T  : utilisez l'ancrage d'entrée  T pour connecter vos données d'entraînement. Les données d'entraînement doivent comporter une colonne avec du texte et une colonne avec l'étiquette du texte.

  • Ancrage d'entrée  V  : utilisez l'ancrage d'entrée  V pour connecter le texte de validation et les étiquettes.

  • Ancrage de sortie  M  : utilisez l'ancrage de sortie  M pour passer le modèle que vous avez conçu en aval. Utilisez votre modèle avec  l'outil Prédire .

  • Ancrage de sortie  E  : utilisez l'ancrage de sortie  E pour collecter les métriques d'évaluation de votre modèle.

Configuration de l'outil

  1. Ajoutez un outil Classification du texte au canevas.

  2. Connectez l'ancrage d'entrée T à vos données d'entraînement. Configurez ensuite les paramètres du Texte d'entraînement  :

    1. Sélectionnez la Colonne avec texte qui contient les données de texte d'entraînement.

    2. Sélectionnez la Colonne avec étiquettes qui contient les étiquettes des données de texte d'entraînement.

  3. Connectez l'ancrage d'entrée V à vos données de validation. Configurez ensuite les paramètres de Validation  :

    1. Sélectionnez la Colonne avec texte qui contient les données de texte de validation.

    2. Sélectionnez la Colonne avec étiquettes qui contient les étiquettes des données de texte de validation.

  4. Configurez les Options avancées pour qu'elles correspondent à votre cas d'usage. Pour plus de détails, reportez-vous à la section suivante.

  5. Exécutez le workflow.

Important

Vos colonnes doivent être du type de données Chaîne.

Options avancées

Choisissez l' Algorithme que vous souhaitez utiliser pour votre modèle :

  • Mode automatique

  • Bayésien naïf multinomial

  • SVC linéaire

Mode automatique

Recherchez un modèle optimal parmi les algorithmes de modèle disponibles. La sélection du Mode automatique exploite les algorithmes Bayésien naïf multinomial et SVC linéaire. Pour chaque modèle, il recherche dans une petite plage de paramètres correspondants. Le Mode automatique produit alors la combinaison optimale d'algorithmes et d'hyperparamètres. Pour affiner votre modèle, choisissez l'une des listes déroulantes spécifiques à l'algorithme.

Bayésien naïf multinomial

L'algorithme bayésien naïf multinomial est un modèle de classification probabiliste. Le classifieur bayésien naïf génère un modèle qui prédit la probabilité selon laquelle une partie de texte appartient à une étiquette. Pour créer votre modèle, utilisez les données d'entraînement sous forme de lignes de texte et leurs étiquettes associées (également appelées classes ou cible). L'algorithme suppose que toutes les caractéristiques sont indépendantes les unes des autres. Le classifieur bayésien naïf est évolutif et généralement performant avec un jeu d'entraînement restreint.

Alpha

Alpha est un paramètre de lissage additif que vous pouvez utiliser pour contrôler la complexité du modèle. La valeur 0 indique une absence de lissage. Une valeur supérieure à 0 peut améliorer vos résultats si un mot dans les données de test n'existe pas dans les données d'entraînement.

L'outil recherche le meilleur modèle en fonction d'une plage de valeurs Alpha que vous définissez. Pour créer ces valeurs Alpha, saisissez la plage à rechercher ( De À ) et le  nombre d'étapes  dans cette plage.

Exemple 1

De = 0, À = 1, Nombre d'étapes = 5 → crée les valeurs Alpha suivantes pour le modèle à expérimenter : [0, 0,25, 0,5, 0,75, 1].

Exemple 2

De = 0, À = 1, nombre d'étapes = 2 → crée les valeurs Alpha suivantes pour le modèle à expérimenter : [0, 1].

Validation croisée

La validation croisée est une technique de rééchantillonnage qui utilise différentes parties (ou plis) de vos données pour l'entraînement et la validation du modèle. Choisissez le nombre de plis à utiliser lors de la validation croisée.

Fréquence des termes - Fréquence inverse du document (TF-IDF)

La nécessité de convertir le texte brut en données numériques est l'une des étapes de traitement requises pour la classification du texte. Cette étape de vectorisation permet au modèle d'interpréter vos données. Pour l'outil Classification du texte, nous utilisons une technique de vectorisation Fréquence des termes - Fréquence inverse du document ( TF-IDF ). Voici les paramètres TF-IDF :

  • Analyseur

  • Choisissez de créer des caractéristiques à partir de mots ( mot ) ou de caractères ( caractère ) en fonction de votre texte d'entrée.

  • Min. Fréquence du document

  • Saisissez la fréquence minimale des termes autorisés dans vos données de texte. L'outil n'ajoute pas de termes en dessous de cette fréquence au vocabulaire de l'algorithme.

SVC linéaire

Le SVC linéaire appartient à la classe des modèles de machine à vecteurs de support. Vous pouvez appliquer cet algorithme à des données comportant 2 classes (binaires) ou plus. Une fois ajusté à vos données, le modèle recherche le meilleur hyperplan qui classe vos données dans les bonnes catégories. Le SVC linéaire est efficace dans les espaces à haute dimension tels que le texte. Cependant, il peut être lent lorsqu'il est appliqué à un vaste jeu de données d'entraînement.

Pénalité

Choisissez la norme utilisée dans la pénalisation. Notez que la norme  L2 (également appelée norme euclidienne ) est la norme utilisée dans la classification par vecteurs de support. La norme L1 permet d'obtenir des vecteurs de coefficient épars.

Perte

Choisissez une fonction de perte. Le choix standard pour cet algorithme est la charnière.

C (plage de logarithmes)

« C » est un paramètre de régularisation. Il doit être supérieur à 0. Les valeurs élevées de C correspondent à une régularisation plus faible et à un modèle qui tente de s'adapter étroitement aux données d'entraînement. En revanche, des valeurs basses de C correspondent à une régularisation accrue.

L'outil recherche le meilleur modèle en fonction d'une plage de valeurs C que vous définissez. Pour créer ces valeurs C, saisissez la plage de logarithmes à rechercher ( De À ) et le  nombre d'étapes  dans cette plage.

Exemple 1

De = -3, À = 2, nombre d'étapes = 6 → crée les valeurs C suivantes pour le modèle à expérimenter : [0,001, 0,01, 0,1, 1, 10, 100].

Exemple 2

De = 0, À = 1, nombre d'étapes = 2 → crée les valeurs C suivantes pour le modèle à expérimenter : [0, 10].

Validation croisée

La validation croisée est une technique de rééchantillonnage qui utilise différentes parties (ou plis) de vos données pour l'entraînement et la validation du modèle. Choisissez le nombre de plis à utiliser lors de la validation croisée.

Fréquence des termes - Fréquence inverse du document (TF-IDF)

La nécessité de convertir le texte brut en données numériques est l'une des étapes de traitement requises pour la classification du texte. Cette étape de vectorisation permet au modèle d'interpréter vos données. Pour l'outil Classification du texte, nous utilisons une technique de vectorisation Fréquence des termes - Fréquence inverse du document ( TF-IDF ). Voici les paramètres TF-IDF :

  • Analyseur

  • Choisissez de créer des caractéristiques à partir de mots ( mot ) ou de caractères ( caractère ) en fonction de votre texte d'entrée.

  • Min. Fréquence du document

  • Saisissez la fréquence minimale des termes autorisés dans vos données de texte. L'outil n'ajoute pas de termes en dessous de cette fréquence au vocabulaire de l'algorithme.