Outil Modèle boosté
L'outil Modèle boosté crée des modèles de régression amplifiés généralisés basés sur des Méthodes de stimulation des gradients. Les modèles sont créés en ajoutant en série des modèles simples d’arborescences de décision à un ensemble de modèles afin de minimiser une fonction de perte appropriée. Ces modèles utilisent une méthode d’apprentissage statistique qui :
- autodétermine quel sous-ensemble de champs prédit le mieux un champ cible ;
- est capable de capturer des relations et des interactions non linéaires entre les champs ;
- peut automatiquement traiter une large gamme de problèmes de régression et classification ;
et utilise l’outil Modèle dynamisé pour la classification, le comptage de données et les problèmes de régression de cible continue.
Cet outil utilise l’outil R. Allez dans Options > Télécharger les outils prédictifs et connectez-vous à la Portail Téléchargements et licences Alteryx pour installer l’outil R et les packages utilisés par ce dernier. Reportez-vous à la page Outil R. Voir Télécharger et utiliser les outils prédictifs.
L’outil Modèle dynamisé nécessite un flux de données d’entrée avec :
- un champ cible d’intérêt
- et deux champs prédicteurs ou plus
Les packages utilisés dans l'estimation du modèle varient en fonction du flux de données d'entrée.
- Un flux de données Alteryx utilise la fonction R gbm.
- Un flux de métadonnées XDF, provenant soit d'un Outil Entrée XDF ou Outil Sortie XDF, utilise la fonction RevoScaleRrxBTrees.
- Les données d'un flux de données SQL Server in-Database utilisent la fonction rxBTrees.
- L'installation de Microsoft Machine Learning Server exploite la fonction RevoScaleR rxBTrees pour vos données dans vos bases de données SQL Server ou Teradata. Il faut pour cela que l'ordinateur local et le serveur soient configurés avec Microsoft Machine Learning Server, ce qui permet le traitement sur le serveur de base de données et entraîne une amélioration significative des performances.
Performances de l'algorithme
En comparaison avec les fonctions open source R, la fonction basée sur RevoScaleR peut analyser des jeux de données bien plus grands. Toutefois, la fonction basée sur RevoScaleR doit créer un fichier XDF, ce qui augmente le coût de surcharge, utilise un algorithme qui fait plus de passages sur les données, augmentant de ce fait le temps d'exécution, et ne peut pas créer certaines sorties de diagnostic de modèle.
- Paramètres requis : les champs de base nécessaires pour générer un modèle boosté.
- Nom du modèle : nom du modèle qui peut être référencé par d'autres outils. Le préfixe ou le nom de champ doit commencer par une lettre et peut contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Le code R est sensible à la casse.
- Sélectionnez la variable cible : le champ de données à prévoir, également appelé réponse ou variable dépendante.
- Sélectionnez les champs Predictor : les champs de données utilisés pour influencer la valeur de la variable cible, également appelée fonction ou variable indépendante. Un minimum de deux champs prédicteurs est nécessaire mais il n’existe pas de limite maximum du nombre de champs prédicteurs sélectionnés. La variable cible elle-même ne doit pas servir à calculer la valeur cible, par conséquent le champ cible ne doit pas être inclus avec les champs prédicteurs.
- Utiliser les pondérations d'échantillonnage dans l'estimation du modèle: option permettant de sélectionner un champ qui pèse l'importance donnée à chaque enregistrement lors de la création d'une estimation de modèle.
Si un champ est utilisé à la fois comme prédicteur et comme poids d'échantillon, le champ variable de poids en sortie sera précédé de Right_.
- Sélectionnez le champ de poids d'échantillonnage : champ utilisé pour pondérer les enregistrements.
- Inclure des tracés d'effets marginaux ? : une option permettant d'inclure des tracés dans le rapport qui illustrent la relation entre la variable Predictor et la cible, en moyenne sur l'effet d'autres champs Predictor.
- Le niveau minimal d'importance d'un champ à inclure dans les tracés : une valeur en pourcentage qui indique la puissance prédictive minimale d'une variable à inclure dans le tracé d'effet marginal. Un pourcentage plus élevé réduit le nombre des tracés d’effets marginaux produits.
- Personnalisation du modèle : paramètres facultatifs qui personnalisent le modèle de sortie en fonction de la cible et de la manière dont les arborescences de décision sont gérées.
- Spécifiez le type de cible et la répartition de la fonction de perte : la catégorie de données dans le champ cible et la fonction associée permettant d'optimiser la création du modèle.
- Cible continue : cible numérique dans laquelle une valeur unique donnée comprend un faible pourcentage des instances totales, telles que les ventes annuelles par magasin.
Pour une cible continue, minimiser une fonction de perte basée sur l'une des distributions suivantes : - Gaussien (perte d'erreur quadratique)
- Laplace (perte de valeur absolue)
- perte de distribution t
- Compte (entier) cible : cible numérique pour laquelle la plupart des valeurs uniques comportent un pourcentage important du nombre total d'instances, par exemple le nombre de visites au bureau d'un médecin qu'une personne effectue en un an.
Pour une cible de comptage, minimiser une fonction de perte en fonction de la distribution de type Poisson.
- Binaire (deux résultats) catégorique : cible catégorique avec deux résultats possibles, par exemple des catégories oui-non.
Pour une cible catégorique binaire, minimiser une fonction de perte en fonction de l'une des distributions suivantes :
- Bernoulli (régression logistique)
- AdaBoost (perte exponentielle)
- Multinominale (trois résultats ou plus) catégorique : un champ cible catégorique comprenant un nombre limité de résultats discrets, par exemple les catégories A, B ou C.
Pour une cible de catégorie polynomiale, minimisez une fonction de perte en fonction d’une fonction de perte logistique polynomiale, une généralisation polynomiale de la fonction de perte de Bernoulli.
- Nombre maximal d'arborescences dans le modèle : nombre d'arborescences de décision que l'algorithme peut inclure dans le modèle final. La valeur par défaut est 4000. Un nombre plus élevé d’arborescences rallonge le temps d’exécution.
- Méthode de détermination du nombre final d'arbres dans le modèle : méthode utilisée pour déterminer le nombre d'arbres de décision qui capturent correctement le comportement prédictif sans ajuster excessivement les données de l'échantillon.
- Validation croisée : méthode de validation utilisant de manière efficace les informations disponibles. Recommandé dans les cas où les données sont limitées.
- Nombre de plis de validation croisée : nombre de sous-échantillons dont les données sont divisées pour la validation ou la formation. La valeur par défaut est 5. Les valeurs courantes sont 5 et 10. Dans un cas avec 5 plis, les données sont divisées en 5 sous-échantillons uniques et 5 modèles différents sont créés, chacun utilisant des données de 4 des sous-échantillons. Le sous-échantillon final ne participe pas à la création de modèles et sert à tester la précision de la prédiction.
- Nombre de processeurs à utiliser pour la validation croisée: nombre de processeurs utilisés dans l'analyse. La valeur par défaut est 1. Le nombre utilisé doit toujours être inférieur au nombre de noyaux disponibles. Pour augmenter la vitesse de calcul, le nombre de noyaux doit être augmenté.
- Test (validation) d'échantillon : méthode de validation qui extrait les échantillons des données de formation. Recommandé dans les cas disposant de nombreux enregistrements.
- Pourcentage dans l'échantillon de l'estimation (formation) : pourcentage d'enregistrements utilisés dans l'échantillon de formation, le reste étant utilisé dans l'échantillon d'essai. La valeur par défaut est 50. Les valeurs courantes sont 50 % et 75 %. Si 50 % des enregistrements sont utilisés dans l’échantillon de formation, les 50 % restants sont utilisés pour tester la précision de la prédiction.
- Hors du sac : méthode de validation qui utilise des enregistrements qui ont été exclus dans la création du modèle.
- Fraction des observations utilisées dans l'échantillon hors du sac : pourcentage d'échantillonnage utilisé pour déterminer le nombre approprié d'arbres à inclure dans le mode pour éviter les ajustements excessifs. La valeur par défaut est 50 %. Les valeurs courantes sont 25 % et 50 %.
- Rétrécissement : valeur comprise entre 0 et 1 utilisée pour répartir le poids sur chaque arbre ajouté au modèle. La valeur par défaut est 0,0020. Les valeurs plus petites permettent d’inclure plus d’arborescences dans le modèle, ce qui rallonge le temps d’exécution.
Une petite valeur de rétrécissement peut nécessiter l’augmentation de la valeur Définir le nombre maximum d’arborescences de décision pour garantir un nombre optimal d’arborescences.
- Profondeur d'interaction : niveau d'interaction entre les champs prédictifs. Par exemple, une interaction à trois voies indique qu’un prédicteur dépend de deux autres prédicteurs pour déterminer l’impact sur le champ cible. La valeur par défaut est Linéaire et suppose qu'il n'existe aucune interaction entre les champs Predictor. L’augmentation de la profondeur diminue le temps d’exécution.
- Nombre minimal requis d'objets dans chaque nœud d'arborescence : un paramètre qui vérifie un arbre de décision présente une taille suffisante avant d'autoriser l'ajout d'un autre arbre de décision. La valeur par défaut est 10. L’augmentation de la valeur produira des arborescences de décision plus petites.
- Valeur de prélèvement aléatoire : valeur qui détermine la séquence des extractions pour l'échantillonnage aléatoire. Cela entraîne le choix des mêmes enregistrements dans les données, bien que la méthode de sélection soit aléatoire et non dépendante de celles-ci. Changez la valeur pour changer la séquence des tirages au sort.
- Options graphiques : les paramètres du graphe de sortie. Les valeurs par défaut sont utilisées, sauf si le paramètre est personnalisé.
- Taille du tracé : taille du graphique de sortie. Sélectionnez les unités, puis définissez les valeurs de largeur et de hauteur.
-
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 ppp) ; 2x (192 PPP) ; ou 3x (288 PPP). Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur. Une résolution élevée produit un fichier de plus grande taille avec une qualité d’impression supérieure.
- Taille de police de base (points) : taille de la police en points.
Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l’exécution.
Ces options peuvent servir à modifier les paramètres des modèles.
L’outil Modèle boosté prend en charge le traitement en BDD Microsoft SQL Server 2016. Voir Vue d’ensemble des outils En base de données pour plus d'informations sur le support et les outils de la base de données.
Pour accéder à la version en BDD de l’outil Modèle dynamisé :
- Placez un outil en BDD dans le canevas. L’outil Modèle dynamisé se transforme automatiquement en Modèle dynamisé en BDD.
- Cliquez avec le bouton droit sur l'outil Modèle boosté, pointez sur Choisir la version de l'outil, puis sélectionnez Modèle boosté dans la base de données.
Voir Analyse prédictive pour plus d'informations sur la prise en charge prédictive dans la base de données.
- Paramètres requis : les champs de base nécessaires pour générer un modèle boosté.
- Chaque modèle créé doit recevoir un nom qui peut être référencé par d’autres outils. Le traitement en BDD autorise deux méthodes de création de noms de modèle :
- Nom du modèle spécifique : nom de modèle déterminé par l'utilisateur. Le préfixe ou le nom de champ doit commencer par une lettre et peut contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Le code R est sensible à la casse.
- Nom du modèle généré : le nom du modèle est généré automatiquement.
- Sélectionnez la variable cible : le champ de données à prévoir, également appelé réponse ou variable dépendante.
- Sélectionnez les variables prédictives : les champs de données utilisés pour influencer la valeur de la variable cible, également appelée fonction ou variable indépendante. Un minimum de deux valeurs de prédiction est nécessaire mais il n’existe pas de limite maximum du nombre de valeurs de prédiction utilisées. La variable cible elle-même ne doit pas servir à calculer la valeur cible, par conséquent le champ cible ne doit pas être inclus avec les champs prédicteurs.
-
Utiliser les pondérations d'échantillonnage dans l'estimation du modèle: option permettant de sélectionner un champ qui pèse l'importance donnée à chaque enregistrement lors de la création d'une estimation de modèle.
Si un champ est utilisé à la fois comme prédicteur et comme poids d'échantillon, le champ variable de poids en sortie sera précédé de Right_.
- Sélectionnez le champ de poids d'échantillonnage : champ utilisé pour pondérer les enregistrements.
- Personnalisation du modèle : paramètres facultatifs qui personnalisent le modèle de sortie en fonction de la cible et de la manière dont les arborescences de décision sont gérées.
- Spécifier le type de cible et la répartition des fonctions de perte :
- Cible continue : cible numérique dans laquelle une valeur unique donnée contient un faible pourcentage des instances totales, telles que les ventes annuelles par magasin.
Pour une cible continue, minimisez une fonction de perte selon la distribution gaussienne.
- Cible catégorique binaire : cible catégorique avec deux résultats possibles, par exemple des catégories oui-non.
Pour une cible de catégorie binaire, minimisez une fonction de perte basée sur les distributions de Bernoulli.
- Cible catégorique multinominale : champ cible catégorique avec un nombre limité de résultats discrets, par exemple les catégories A, B ou C.
Pour une cible de catégorie polynomiale, minimisez une fonction de perte en fonction d’une fonction de perte logistique polynomiale, une généralisation polynomiale de la fonction de perte de Bernoulli.
- Cible continue : cible numérique dans laquelle une valeur unique donnée contient un faible pourcentage des instances totales, telles que les ventes annuelles par magasin.
- Nombre maximal d'arborescences dans le modèle : nombre d'arborescences de décision que l'algorithme peut ajouter pour les inclure dans le modèle final. La valeur par défaut est 4000. Un nombre plus élevé d’arborescences rallonge le temps d’exécution.
- Fraction des observations utilisées dans l'échantillon hors du sac : pourcentage d'échantillonnage utilisé pour réduire le nombre d'arbres de décision inclus avec une évaluation hors du sac. La valeur par défaut est 50 %. Les valeurs courantes sont 25 % et 50 %.
- Poids de rétrécissement : valeur comprise entre 0 et 1 utilisée pour placer du poids sur chaque arbre ajouté au modèle. La valeur par défaut est 0,0020. Les valeurs plus petites permettent d’inclure plus d’arborescences dans le modèle, ce qui rallonge le temps d’exécution.
Une petite valeur de rétrécissement peut nécessiter l’augmentation de la valeur Définir le nombre maximum d’arborescences de décision pour garantir un nombre optimal d’arborescences.
- Taille de l'arbre : pour imiter les paramètres de taille d'arbre par défaut dans l'outil standard de Modèle boosté, utilisez les valeurs par défaut. Pour plus d'informations, consultez la section contrôles rxBTrees.
- maxDepth: Profondeur maximum d'un nœud d'arborescence [1000]
- minBucket : nombre minimum requis d'observations dans un nœud terminal (ou feuille) [10]
- minSplit : nombre minimum d'observations qui doit exister dans un nœud avant qu'une division soit tentée [minBucket * 2]
- Valeur de prélèvement aléatoire : valeur qui détermine la séquence des extractions pour l'échantillonnage aléatoire. Cela entraîne le choix des mêmes enregistrements dans les données, bien que la méthode de sélection soit aléatoire et non dépendante de celles-ci. Changez la valeur pour changer la séquence des tirages au sort.
- Options graphiques : les paramètres du graphe de sortie. Les valeurs par défaut sont utilisées, sauf si le paramètre est personnalisé.
- Taille du tracé : sélectionnez les unités, puis définissez les valeurs de largeur et de hauteur.
-
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 ppp) ; 2x (192 PPP) ; ou 3x (288 PPP). Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur. Une résolution élevée produit un fichier de plus grande taille avec une qualité d’impression supérieure.
- Taille de police de base (points) : taille de la police en points.
Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l’exécution.
Ces options peuvent servir à modifier les paramètres des modèles.
Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.
- Ancre O : affiche le nom et la taille du modèle dans la fenêtre Résultats.
- Ancre R : affiche un rapport de modèle qui inclut un récapitulatif et tous les tracés configurés.