Outil Machine à vecteurs de support
Le principe de base de cette méthode est que les variables prédictives doivent trouver la meilleure équation d’une ligne (un prédicteur), d’un plan (deux prédicteurs) ou d’un hyperplan (trois prédicteurs ou plus) pour séparer au maximum les groupes d’enregistrements à partir d’une mesure de distance, les enregistrements d’estimation étant répartis en différents groupes selon la variable cible. Une fonction de noyau fournit la mesure de distance qui détermine la séparation des enregistrements en groupes. Elle nécessite de prendre une fonction des variables prédictives pour définir la métrique de distance.
Une courte vidéo qui illustre comment cela fonctionne peut être trouvé ici, et une discussion très accessible sur le sujet peut être trouvé ici. Le procédé de séparation conditionnelle des groupes d’après la fonction de noyau utilisée est connu sous l’appellation de « marge maximale ». Enfin, la séparation des groupes n’est pas toujours parfaite, mais un paramètre de coût (dû au placement d’un enregistrement d’estimation dans le « mauvais » groupe) peut également être spécifié.
Cet outil utilise le paquet e1071 R.
Cet outil utilise l’outil R. Allez dans Options > Télécharger les outils prédictifs et connectez-vous à la Portail Téléchargements et licences Alteryx pour installer l’outil R et les packages utilisés par ce dernier. Reportez-vous à la page Outil R. Voir Télécharger et utiliser les outils prédictifs.
Connecter une entrée
Flux de données Alteryx qui inclut un champ cible d’intérêt avec un ou plusieurs champs prédicteurs possibles.
Configurer l’outil
Paramètres obligatoires
- Nomdu modèle: chaque modèle a besoin d'un nom afin qu'il puisse être identifié ultérieurement. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Aucun autre caractère spécial n’est autorisé et R est sensible à la casse.
- Sélectionnez le champ cible: sélectionnez le champ dans le flux de données que vous souhaitez prédire.
- Sélectionnez les champs Predictor: Choisissez les champs du flux de données que vous croyez «provoquer» les modifications de la valeur de la variable cible.
- Choisissez la méthode de classification ou de régression en fonction de la variable cible que vous souhaitez prédire. En général, si la variable cible que vous choisissez est une chaîne ou un type booléen, il s'agit probablement d'un problème de classification. Si elle est de type numérique, il s’agit vraisemblablement d’un problème de régression.
- Classification
- C-classification: optimise l'avion de décision tout en permettant une certaine quantité d'erreur
- nu-classification: similaire à C-classification, mais permet à l'utilisateur de limiter la quantité d'erreur en sélectionnant la valeur de nu.
- RégressionRégression
- Un résumé du modèle de base: l'appel de fonction dans R, Target, Predictor et les paramètres associés.
- Performances de vos modèles
- Erreur de moyenne quadratique
- R-carré
- Erreur absolue moyenne
- Erreur absolue médiane
- Tracé résiduel
- Distribution résiduelle
Le rapport explique comment analyser chaque mesure d’évaluation des performances.
- régression epsilon
- régression nu: similaire à la régression Epsilon, mais permet à l'utilisateur de limiter la quantité d'erreur en sélectionnant la valeur de nu.
- Classification
Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l’exécution.
Personnalisation du modèle (facultatif)
La section de personnalisation du modèle permet de choisir le type de noyau et les paramètres correspondants. Sélectionnez spécifier les paramètres du modèle pour personnaliser le modèle.
L'utilisateur fournitdes paramètres: sélectionnez pour définir directement les paramètres nécessaires.
Typede noyau: détermine la métrique utilisée pour mesurer la séparation entre les groupes
- Linéaire: utile lorsque la relation entre les classes et les prédicteurs est une ligne simple, un plan ou un hyperplan
- coût: le coût associé à l'erreur de regroupement d'un enregistrement. Une valeur moindre du coût permet d'avoir un certain niveau d'erreur dans la formation de groupes d'enregistrements afin d'éviter un surajustement.
- Polynôme: la distance est mesurée à l'aide d'une fonction polynomiale des variables prédictives
- coût: le coût associé à l'erreur de regroupement d'un enregistrement. Une valeur moindre du coût permet d'avoir un certain niveau d'erreur dans la formation de groupes d'enregistrements afin d'éviter un surajustement.
- degré: degré du noyau polynomial. Si vous augmentez le degré du noyau polynomial, la marge entre les groupes est plus flexible, et donc l’échantillon d’estimation produit moins d’erreurs. Cette démarche entraîne cependant un surapprentissage du modèle pour l’échantillon d’estimation.
- gamma: coefficient de la notion de produit intérieur dans le noyau polynomial.
- coef0: terme constant dans la formulation polynomiale.
- Radial (par défaut): bon pour les données non linéairement séparable.
- coût: permet une certaine erreur de classification pour éviter le surajustement.
- gamma: coefficient du terme de puissance dans le noyau de fonction de base radiale. Le plus grand gamma est, plus l'espace de fonctionnalité est riche, donc le moins d'erreur pour l'ensemble de formation; Cependant, il peut également conduire à un mauvais ajustement.
- Sigmoïde: principalement utilisé comme un proxy pour les réseaux neuronaux
- gamma: définit l'influence sur l'exemple de formation.
- coef0: le terme constant dans le noyau sigmoïde.
Paramètres de la machine Tunes: sélectionnez pour fournir une gamme de paramètres et de calcul trouver les meilleurs paramètres en recherchant une grille de valeurs possibles, qui est plus coûteuse en calcul et donc prend plus de temps car il effectue une croix de 10 fois validation pour tester le modèle sur plusieurs valeurs de paramètre. Toutefois, le modèle obtenu produit généralement un meilleur ajustement des données.
Les paramètres à sélectionner ici sont analogues à ceux de la section Paramètres fournis par l’utilisateur, mais avec les différences suivantes :
- Nombre de candidatures: le nombre devaleurs des paramètres que l'utilisateur souhaite tester (par défaut: 5)
- Type de noyau (recherche de grille): Voir la section "l'utilisateur fournit des paramètres". L’utilisateur spécifie les valeurs minimales et maximales de certains paramètres. Le modèle génère un certain volume de candidats défini dans l’option Nombre de candidats et trouve le meilleur en effectuant une validation croisée à 10 replis.
Options des graphiques
- Tailledu tracé: définissez les dimensions de largeur et de hauteur du tracé résultant, en utilisant soit des pouces, soit des centimètres.
-
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 ppp) ; 2x (192 PPP) ; ou 3x (288 PPP). Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur. Une résolution élevée produit un fichier de plus grande taille avec une qualité d’impression supérieure.
- Taille de police de base: nombre de points de la police de base utilisée dans les parcelles produites par la macro
Afficher la sortie
- O ancre: la sortie "o" se compose d'une table du modèle sérialisé avec son nom de modèle. Un outil de score et un jeu de données de test peuvent être utilisés après l’obtention de la sortie de l’outil SVM.
- R ancre: la sortie "r" se compose des extraits de rapport générés par l'outil de support vecteur machine. Le rapport est différent pour la classification et la régression, car elles utilisent des méthodes différentes pour l’évaluation des performances.