Outil Machine à vecteurs de support

Exemple d'outil unique

L'outil Machine à vecteurs de support comporte un exemple d'outil unique. Accédez à la page Exemples de workflows pour savoir comment accéder à cet exemple et à de nombreux autres exemples directement dans Alteryx Designer.

Les machines à vecteurs de support (SVM), ou les réseaux à vecteurs de support (SVN) sont des algorithmes d'apprentissage supervisés bien connus développés initialement pour les problèmes de classification (cible catégorielle) dont l'usage a ensuite été étendu aux problèmes de régression (cible numérique). Les SVM sont réputées en raison de leur optimisation de la mémoire. Elles peuvent traiter un grand nombre de variables prédictives (malgré un risque d'ajustement insuffisant si le nombre de prédicteurs est supérieur à celui des enregistrements d'estimation) et sont polyvalentes, car elles prennent en charge un grand nombre de fonctions de noyau différentes.

Le principe de base de cette méthode est de trouver la meilleure équation d'une ligne (1 prédicteur), d'un plan (2 prédicteurs) ou d'un hyperplan (3 prédicteurs ou plus) pour répartir au maximum les groupes de lignes dans différentes catégories à partir d'une mesure de distance, qui dépend de la variable cible. Une fonction de noyau fournit la mesure de distance qui détermine la séparation des enregistrements dans le même groupe ou dans différents groupes. Elle nécessite de prendre une fonction des variables prédictives pour définir la métrique de distance.

Vous trouverez ici une courte vidéo qui illustre le fonctionnement de ce processus :

Une discussion très accessible sur le sujet est disponible ici. La mesure de séparation conditionnelle des groupes d'après la fonction de noyau utilisée est appelée la marge maximale. Enfin, la séparation des groupes n'est pas toujours parfaite, mais un paramètre de coût (dû au placement d'un enregistrement d'estimation dans le « mauvais » groupe) peut également être spécifié.

Cet outil utilise le package R e1071.

Important

Cet outil n'est pas automatiquement installé avec Designer. Pour l'utiliser, téléchargez et installez les outils prédictifs Alteryx sous votre version d'Alteryx Designer depuis le portail Téléchargements et licences.

Pour plus d'informations, consultez la page Télécharger et utiliser les outils prédictifs.

Connexion d'une entrée

Connectez un flux de données Alteryx qui inclut un champ cible d'intérêt avec 1 ou plusieurs champs prédicteurs possibles.

Configuration de l'outil

Paramètres obligatoires

Nom du modèle : chaque modèle doit posséder un nom pour être identifiable ultérieurement. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point ( . ) et trait de soulignement ( _ ). Aucun autre caractère spécial n'est autorisé et R est sensible à la casse.
Sélectionnez le champ cible : sélectionnez le champ du flux de données à prédire.
Sélectionnez les champs prédicteurs : sélectionnez les champs du flux de données que vous pensez « provoquent » des changements de valeur de la variable cible. Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l'exécution.
Choisissez la méthode de classification ou de régression en fonction de la variable cible à prédire. Généralement, si la variable cible choisie est de type chaîne ou booléen, il s'agit vraisemblablement d'un problème de classification. Si la variable est de type numérique, il s'agit vraisemblablement d'un problème de régression.
- Classification :
  - Une synthèse de base du modèle : l'appel de fonction dans R, la cible, les prédicteurs et les paramètres associés.
  - Performances du modèle :
    Une matrice de confusion
    Les tracés classification SVM
    Le rapport explique comment analyser chaque mesure d'évaluation des performances.
- Options de classification :
  - Classification c : la Classification c optimise le plan de décision tout en autorisant un certain nombre d'erreurs.
  - Classification nu : la classification nu est similaire à la classification c, mais permet à l'utilisateur de limiter le nombre d'erreurs en sélectionnant la valeur de nu.
- Régression :
  - Une synthèse de base du modèle : l'appel de fonction dans R, la cible, les prédicteurs et les paramètres associés.
  - Performances du modèle :
    Racine de l'erreur quadratique moyenne
    R-carré
    Erreur absolue moyenne
    Erreur médiane absolue
    Tracé résiduel
    Distribution résiduelle
    Le rapport explique comment analyser chaque mesure d'évaluation des performances.
- Options de régression :
  - Régression epsilon
  - Régression nu : la régression nu est similaire à la régression epsilon, mais permet à l'utilisateur de limiter la quantité d'erreurs en sélectionnant la valeur de nu.

Personnalisation du modèle (facultatif)

La section de personnalisation du modèle permet de choisir le type de noyau et les paramètres correspondants. Sélectionnez Spécifier les paramètres du modèle pour personnaliser le modèle.

Paramètres fournis par l'utilisateur : sélectionnez cette option pour définir directement les paramètres nécessaires.

Type de noyau : détermine la métrique utilisée pour mesurer la séparation entre les groupes.

Linéaire : utile lorsque la relation entre les classes et les prédicteurs est une simple ligne, un plan ou un hyperplan.
- coût : coût lié à une erreur de regroupement d'un enregistrement. Une valeur de coût plus basse autorise un certain degré d'erreur dans la formation des groupes d'enregistrements afin d'éviter le surajustement.
Polynomial : la distance est mesurée à l'aide d'une fonction polynomiale des variables prédictives.
- coût : coût lié à une erreur de regroupement d'un enregistrement. Une valeur de coût plus basse autorise un certain degré d'erreur dans la formation des groupes d'enregistrements afin d'éviter le surajustement.
- degré : degré du noyau polynomial. Si vous augmentez le degré du noyau polynomial, la marge entre les groupes est plus flexible, et donc l'échantillon d'estimation produit moins d'erreurs. Cette démarche entraîne cependant un surapprentissage du modèle pour l'échantillon d'estimation.
- gamma : coefficient du terme de produit interne dans le noyau polynomial.
- coef0 : terme constant dans la formulation polynomiale.
Radial (par défaut) : intéressant pour les données non séparables linéairement.
- coût : autorise un certain niveau d'erreur dans la classification pour éviter le surajustement.
- gamma : coefficient du terme de puissance dans la fonction de noyau de base radiale. Plus la valeur gamma est élevée, plus la caractéristique d'espace est riche, et moins l'erreur est possible pour le jeu d'entraînement, ce qui peut néanmoins entraîner un surajustement.
Sigmoïde : principalement utilisé en tant que proxy pour les réseaux neuronaux
- gamma : détermine l'influence sur l'exemple d'entraînement.
- coef0 : terme constant dans le noyau sigmoïde.

Paramètres ajustés par la machine : sélectionnez cette option pour fournir une plage de paramètres et trouver les plus pertinents en recherchant dans une grille de valeurs possibles. Cette dernière option consomme davantage de ressources informatiques, et donc plus de temps, car elle effectue une validation croisée à 10 replis pour tester le modèle sur des paramètres multiples. Toutefois, le modèle obtenu produit généralement un meilleur ajustement des données.

Les paramètres à sélectionner ici sont analogues à ceux de la section Paramètres fournis par l'utilisateur, mais avec les différences suivantes :

Nombre de candidats : quantité de valeurs des paramètres à tester (5 par défaut).
Type de noyau (recherche dans la grille) : voir la section « Paramètres fournis par l'utilisateur ». L'utilisateur spécifie les valeurs minimales et maximales de certains paramètres. Le modèle génère un certain volume de candidats défini dans l'option « Nombre de candidats » et trouve le meilleur en effectuant une validation croisée à 10 replis.

Options des graphiques

Taille du tracé : définissez la largeur et la hauteur du tracé souhaité, en pouces ou en centimètres.
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 dpi) ; 2x (192 dpi) ou 3x (288 dpi).
- Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur.
- Une résolution élevée produit un fichier de plus grande taille avec une qualité d'impression supérieure.
Taille de la police de base : nombre de points de la police de base utilisée dans les tracés générés par la macro.

Visualisation de la sortie

Ancrage O : la sortie « O » est constituée d'une table du modèle sérialisé avec le nom du modèle. Un outil Évaluation et un jeu de données test peuvent être utilisés après l'obtention de la sortie dans l'outil Machine à vecteurs de support.
Ancrage R : la sortie « R » se compose de snippets de rapports générés par l'outil Machine à vecteurs de support. Le rapport est différent pour la classification et la régression, car elles utilisent des méthodes différentes pour l'évaluation des performances.