Outil Modèle de forêt
L’outil Modèle de forêt crée un modèle qui construit un ensemble de modèles d’arbre de décision pour prédire une variable cible sur la base d’une ou de plusieurs variables prédictives. Les différents modèles sont construits à l’aide d’échantillons aléatoires des données d’origine (procédure appelée « bootstrapping »). En outre, seul un nombre limité de variables est pris en compte à chaque fractionnement d’arborescence, le nombre déterminé étant défini automatiquement par R ou par l’utilisateur. Voir la forêt au hasard.
Cet outil utilise l’outil R. Allez dans Options > Télécharger les outils prédictifs et connectez-vous à la Portail Téléchargements et licences Alteryx pour installer l’outil R et les packages utilisés par ce dernier. Reportez-vous à la page Outil R. Voir Télécharger et utiliser les outils prédictifs.
Connectez un flux de données Alteryx ou un flux de métadonnées XDF qui inclut un champ cible d’intérêt avec un ou plusieurs champs prédicteurs possibles.
Si les données d'entrée proviennent d'un flux de données Alteryx, la fonction randomForest Open source R (du package randomForest) est utilisée pour l'estimation du modèle.
Si les données d'entrée proviennent soit d'un Outil Sortie XDF ou Outil Entrée XDF, la fonction rxDForest RevoScaleR est utilisée pour l'estimation du modèle. L’avantage de la fonction RevoScaleR est qu’elle permet d’analyser des jeux de données beaucoup plus volumineux (mémoire insuffisante), au détriment d’une augmentation de la charge pour créer un fichier XDF, et qu’elle utilise un algorithme devant effectuer plus d’opérations sur les données pour créer chaque arborescence de l’ensemble (beaucoup plus lent) que la fonction open source randomForest. Par conséquent, il est fortement recommandé de diminuer le nombre d’arborescences de l’ensemble par rapport aux 500 arbres par défaut.
- Nom du modèle: tapez un nom pour le modèle pour identifier le modèle lorsqu'il est référencé dans d'autres outils. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Aucun autre caractère spécial n’est autorisé et R est sensible à la casse.
- Sélectionnez la variable cible: sélectionnez les données à prévoir. Une variable cible est également appelée « réponse » ou « variable dépendante ».
- Sélectionnez les variables prédictives: sélectionnez les données à utiliser pour influencer la valeur de la variable cible. Une variable prédictive est également appelée « fonction » ou « variable indépendante ». Vous pouvez sélectionner un nombre infini de variables prédictives, mais la variable cible ne doit pas être également une variable prédictive. Chaque variable prédictive catégorielle peut avoir au maximum 32 classes.
- Nombre d'arborescences à utiliser: sélectionnez le nombre de modèles d'arborescence à inclure dans la forêt. La valeur par défaut est 500 en fonction des résultats de Breiman. Réduisez la valeur avec un flux de métadonnées XDF si la durée d’exécution du modèle pose problème.
- Sélectionnez un nombre spécifique de variables à sélectionner entre chaque fractionnement: sélectionnez le nombre de variables à considérer à chaque fractionnement.
Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l’exécution.
Cliquez sur personnalisation du modèle pour modifier les paramètres du modèle.
- Limiter directement la taille de chaque arborescence de modèle
- Nombre total de nœuds autorisés dans une arborescence: sélectionnez pour les modèles qui utilisent le modèle Open source randomForest.
- La profondeur maximale d'une arborescence de modèles: sélectionnez pour les modèles qui utilisent la fonction rxDForest RevoScaleR est utilisé
- Nombre minimal d'enregistrements autorisés dans un nœud d'arborescence: sélectionnez une valeur pour contrôler la taille du plus petit noeud terminal autorisé dans chaque arborescence d'ensemble. Si vous augmentez cette valeur, le nombre total de nœuds dans chaque arbre diminue.
- Sélectionnez les enregistrements pour la création de chaque modèle avec le remplacement: sélectionnez pour contrôler si les répliques d'amorçage sont tirées de l'échantillon d'estimation complète avec ou sans remplacement.
- Pourcentage des enregistrements de données à échantillonner pour créer chaque arborescence: sélectionnez pour contrôler si la totalité ou une partie de l'échantillon d'estimation complète sera utilisée pour la formation de chaque réplique d'amorçage.
- Tailledu tracé: sélectionnez pouces ou centimètres pour la taille du graphique.
-
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 ppp) ; 2x (192 PPP) ; ou 3x (288 PPP). Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur. Une résolution élevée produit un fichier de plus grande taille avec une qualité d’impression supérieure.
- Taille de police de base (points): sélectionnez la taille de la police dans le graphique.
Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.
- O ancre: affiche le nom du modèle et la taille de l'objet dans la fenêtre de résultats.
- R ancre: affiche un rapport récapitulatif du modèle qui comprend un résumé et des parcelles.
L’outil Modèle de forêt prend en charge le traitement en BDD Microsoft SQL Server 2016. Voir Vue d’ensemble des outils En base de données pour plus d'informations sur le support et les outils de la base de données.
Si un outil Modèle de forêt est placé sur le canevas avec un autre outil en BDD, l’outil bascule automatiquement vers la version en BDD. Pour changer la version de l’outil, cliquez avec le bouton droit sur l’outil, pointez le curseur sur Sélectionner la version de l’outil, puis cliquez sur une autre version de l’outil. Voir Analyse prédictive pour plus d'informations sur la prise en charge prédictive dans la base de données.
Connectez un flux de données en BDD qui inclut un champ cible d’intérêt avec un ou plusieurs champs prédicteurs possibles.
Si l'entrée provient d'un flux de données SQL Server ou Teradata, la fonction rxDForest de Microsoft machine learning Server (à partir du package RevoScaleR ) est utilisée pour l'estimation du modèle. Cela permet de faire le traitement sur le serveur de base de données, aussi longtemps que l'ordinateur local et le serveur ont été configurés avec Microsoft machine learning Server, et peut entraîner une amélioration significative sur les performances.
- Nomdu modèle: chaque modèle doit être donné un nom afin qu'il puisse être identifié ultérieurement. Vous devez fournir un nom ou générer un nom automatiquement. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Aucun autre caractère spécial n’est autorisé et R est sensible à la casse.
- Sélectionnez la variable cible: sélectionnez le champ dans le flux de données que vous souhaitez prédire.
- Sélectionnez les variables prédictives: choisissez les champs du flux de données que vous croyez «provoquer» les modifications de la valeur de la variable cible.
- Nombre d'arborescences à utiliser: sélectionnez le nombre de modèles d'arborescence à inclure dans la forêt. La valeur par défaut est 500 en fonction des résultats de Breiman. Réduisez la valeur avec un flux de métadonnées XDF si la durée d’exécution du modèle pose problème.
- Sélectionnez un nombre spécifique de variables à sélectionner entre chaque fractionnement: sélectionnez le nombre de variables à considérer à chaque fractionnement.
- Utiliser les pondérations d'échantillonnage pour l'estimation du modèle: cochez la case, puis sélectionnez un champ de poids dans le flux de données pour estimer un modèle qui utilise le poids d'échantillonnage. Un champ est utilisé comme prédicteur et comme variable de pondération, puis la variable de pondération apparaît dans l’appel de modèle dans la sortie avec la chaîne « Right_ » ajoutée au début.
Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l’exécution.
- Limiter directement la taille de chaque arborescence de modèle
- Nombre total de nœuds autorisés dans une arborescence: sélectionnez pour les modèles qui utilisent le modèle Open source R randomForest.
- Profondeur maximale d'une arborescence de modèles: sélectionnez pour les modèles qui utilisent la fonction rxDForest RevoScaleR.
- Nombre minimal d'enregistrements autorisés dans un nœud d'arborescence: sélectionnez une valeur pour contrôler la taille du plus petit noeud terminal autorisé dans chaque arborescence d'ensemble. Si vous augmentez cette valeur, le nombre total de nœuds dans chaque arbre diminue.
- Sélectionnez les enregistrements pour la création de chaque modèle avec le remplacement: sélectionnez pour contrôler si les répliques d'amorçage sont tirées de l'échantillon d'estimation complète avec ou sans remplacement.
- Pourcentage des enregistrements de données à échantillonner pour créer chaque arborescence: sélectionnez pour contrôler si la totalité ou une partie de l'échantillon d'estimation complète sera utilisée pour la formation de chaque réplique d'amorçage.
- Tailledu tracé: sélectionnez pouces ou centimètres pour la taille du graphique.
-
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 ppp) ; 2x (192 PPP) ; ou 3x (288 PPP). Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur. Une résolution élevée produit un fichier de plus grande taille avec une qualité d’impression supérieure.
- Taille de police de base (points): sélectionnez la taille de la police dans le graphique.
Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.
- O ancre: affiche le nom du modèle et la taille de l'objet dans la fenêtre de résultats.
- R ancre: affiche un rapport récapitulatif du modèle qui comprend un résumé et des parcelles.