Outil Arbre de décision
L'outil arbre de décision crée un ensemble de règles si-alors fractionnées pour optimiser les critères de création de modèles basés sur les méthodes d'apprentissage des arborescences décisionnelles . La formation des règles est basée sur le type de champ cible:
- Si le champ cible est un membre d'un ensemble de catégories, une arborescence de classification est construite.
- Si le champ cible est une variable continue, une arborescence de régression est construite.
Utilisez l'outil arbre de décision lorsque le champ cible est prédit à l'aide d'un ou de plusieurs champs variables, tels qu'un problème de régression cible continue ou de classification.
Cet outil utilise l’outil R. Allez dans Options > Télécharger les outils prédictifs et connectez-vous à la Portail Téléchargements et licences Alteryx pour installer l’outil R et les packages utilisés par ce dernier. Reportez-vous à la page Outil R. Voir Télécharger et utiliser les outils prédictifs.
L'outil de décision tee nécessite une entrée avec:
- un champ cible d’intérêt
- Un ou plusieurs champs Predictor
Les packages utilisés dans l'estimation du modèle varient en fonction du flux de données d'entrée.
- Un flux de données Alteryx utilise la fonction rpart Open source R.
- Un flux de métadonnées XDF, provenant soit d'un Outil Entrée XDF ou Outil Sortie XDF, utilise la fonction rxDTree RevoScaleR.
- Les données d'un flux de données SQL Server in-Database utilisent la fonction rxBTrees.
- L'installation de Microsoft Machine Learning Server exploite la fonction RevoScaleR rxBTrees pour vos données dans vos bases de données SQL Server ou Teradata. Il faut pour cela que l'ordinateur local et le serveur soient configurés avec Microsoft Machine Learning Server, ce qui permet le traitement sur le serveur de base de données et entraîne une amélioration significative des performances.
Capacités RevoScaleR
En comparaison avec les fonctions open source R, la fonction basée sur RevoScaleR peut analyser des jeux de données bien plus grands. Toutefois, la fonction basée sur RevoScaleR doit créer un fichier XDF, ce qui augmente le coût de surcharge, utilise un algorithme qui fait plus de passages sur les données, augmentant de ce fait le temps d'exécution, et ne peut pas créer certaines sorties de diagnostic de modèle.
Ces options sont nécessaires pour générer une décision.
- Type nomdu modèle: nom du modèle qui peut être référencé par d'autres outils. Le préfixe ou le nom de champ doit commencer par une lettre et peut contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Le code R est sensible à la casse.
- Sélectionnez la variable cible: le champ de données à prévoir, également connu sous le nom de réponse ou variable dépendante.
- Sélectionnez variables prédictives: les champs de données utilisés pour influencer la valeur de la variable cible, également appelée fonction ou variable indépendante. Un champ Predictor est requis au minimum, mais il n'y a pas de limite supérieure sur le nombre de champs Predictor sélectionnés. La variable cible elle-même ne doit pas servir à calculer la valeur cible, par conséquent le champ cible ne doit pas être inclus avec les champs prédicteurs.
Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l’exécution.
Cliquez sur personnaliser pour ajuster les paramètres supplémentaires.
Modèle: les options qui changent la façon dont le modèle évalue les données et est construit.
Choisissez algorithme: sélectionnez la fonction rpart ou la fonction c 5.0.
rpart: un algorithme basé sur le travail de Breiman, Friedman, Olshen et Stone; considéré comme la norme. Utilisez rpart si vous créez un modèle de régression ou si vous avez besoin d'une parcelle de taille.
Type de modèle et poids d'échantillonnage: contrôles pour le type de modèle basé sur la variable cible et la manipulation des masses d'échantillonnage.
- Typede modèle: type de modèle utilisé pour prédire la variable cible.
- Auto: le type de modèle est automatiquement sélectionné en fonction du type de variable cible.
- Classification: le modèle prédit une valeur textuelle discrète d'une catégorie ou d'un groupe.
- Régression: le modèle prédit des valeurs numériques continues.
- Utiliser les pondérations d'échantillonnage dans l'estimation du modèle: option qui vous permet de sélectionner un champ qui juge l'importance accordée à chaque enregistrement et de pondérer l'enregistrement en conséquence lors de la création d'une estimation de modèle.
Si un champ est utilisé à la fois comme prédicteur et comme poids d'échantillon, le champ variable de poids de sortie est ajouté avec "Right_".
Critères de fractionnement et substituts: contrôles de la façon dont le modèle détermine un fractionnement et comment les substituts sont utilisés dans l'évaluation des modèles de données.
- Critères de fractionnement à utiliser: sélectionnez le mode d'évaluation du modèle lorsqu'un arbre doit être divisé.
- Coefficient de Gini
- Index d'informations
- Utilisez des substituts pour: sélectionnez la méthode d'utilisation des substituts dans le processus de fractionnement. Les substituts sont des variables liées à la variable primaire qui sont utilisées pour déterminer le résultat fractionné d'un enregistrement avec des informations manquantes.
- Omettre les observations avec la valeur manquante pour la règle de fractionnement primaire: l'enregistrement manquant la variable candidate n'est pas pris en compte dans la détermination du fractionnement.
- Fractionner les enregistrements manquant la variable candidate: tous les enregistrements manquant la variable candidate sont répartis uniformément sur le fractionnement.
- Envoyer l'observation dans la direction de la majorité si tous les substituts sont manquants: tous les enregistrements manquant la variable candidate sont poussés sur le côté de la scission qui contient plus d'enregistrements.
- Sélectionnez le meilleur fractionnement de substitution en utilisant: sélectionnez les critères pour choisir la meilleure variable à fractionner à partir d'un ensemble de variables possibles.
- Nombre de classifications correctes pour une variable candidate: choisit la variable à fractionner en fonction du nombre total d'enregistrements correctement classés.
- Pourcentage de classifications correctes pour une variable candidate choisit la variable à fractionner en fonction du pourcentage d'enregistrements qui sont correctement classés.
Les critères de fractionnement lors de l'utilisation d'un modèle de régression sont toujours les moindres carrés.
L'impureté de Gini est utilisée.
Hyperparamètres: contrôles pour la distribution antérieure du modèle.
- Nombre minimal d'enregistrements nécessaires pour permettre un fractionnement: définissez le nombre d'enregistrements qui doivent exister avant qu'un fractionnement ne se produise. Si le nombre d’enregistrements existants est inférieur au nombre minimum, aucun fractionnement supplémentaire ne sera alors autorisé.
- Nombre minimal autorisé d'enregistrements dans un nœud terminal: Définissez le nombre d'enregistrements qui peuvent être dans un nœud terminal. Plus ce nombre est bas, plus le nombre potentiel de nœuds terminaux finaux à la fin de l’arbre est élevé.
- Nombre de plis à utiliser dans la validation croisée pour élaguer l'arborescence: définir le nombre de groupes (N) les données doivent être divisées lors du test du modèle. Le nombre par défaut est 10, mais d’autres valeurs courantes sont 5 et 20. Un plus grand nombre de plis donne plus de précision à l'arbre, mais peut prendre plus de temps à traiter. Lorsque l’arbre est épuré à l’aide d’un paramètre de complexité, la validation croisée détermine le nombre de plis, ou de ramifications, présents dans l’arbre. Lors de la validation croisée, N - 1 des plis sont utilisés pour créer un modèle, et l’autre pli est utilisé comme échantillon pour déterminer le nombre de ramifications optimal pour le pli de retenue afin d’éviter un surajustement.
- La profondeur maximale autorisée de n'importe quel nœud dans l'arborescence finale: définissez le nombre de niveaux de branches autorisés à partir du nœud racine vers le nœud le plus lointain de la racine pour limiter la taille globale de l'arborescence.
- Nombre maximal d'emplacements à utiliser pour chaque variable numérique: saisissez le nombre d'emplacements à utiliser pour chaque variable. Par défaut, la valeur est calculée en fonction du nombre minimal d'enregistrements nécessaires pour permettre un fractionnement.
- Définir le paramètrede complexité: valeur qui contrôle la taille de l'arborescence de décision. Une valeur plus petite génère plus de branches dans l'arborescence et une plus grande valeur entraîne moins de branches. Si aucun paramètre de complexité n'est sélectionné, le paramètre est déterminé en fonction de la validation croisée.
Flux de métadonnées XDF uniquement
Cette option ne s’applique que si l’entrée dans l’outil est un flux de métadonnées XDF. La fonction Revo ScaleR (rxDTree) qui met en œuvre l’arbre de décision évolutif gère les variables numériques via un processus de stockage par intervalle égal afin de diminuer la complexité des calculs.
C 5.0: un algorithme basé sur les travaux de Quinlan; utilisez c 5.0 si vos données sont triées en un petit nombre de classes mutuellement exclusives. Les propriétés qui peuvent être pertinentes pour l'assignation de classe sont fournies, bien que certaines données puissent avoir des valeurs inconnues ou non applicables.
Options structurelles: contrôles pour la structure du modèle. Par défaut, le modèle est structuré en tant qu'arbre de décision.
- Décomposer l'arborescence en modèle basé surune règle: modifiez la structure de l'algorithme de sortie d'un arbre de décision en une collection de règles simples si-alors non ordonnées.
- Seuil nombre de bandes à regrouper les règles en: sélectionnez pour Sélectionner un nombre de bandes à grouper les règles dans l'endroit où l'ensemble de numéros est le seuil de la bande.
Options détaillées: contrôles pour les fractionnements et les fonctionnalités du modèle.
- Le modèle doit évaluer les groupes de prédicteurs discrets pour les fractionnements: grouper les variables prédictives catégoriques ensemble. Sélectionnez cette option pour réduire le surajustement lorsqu'il existe des attributs discrets importants qui ont plus de quatre ou cinq valeurs.
- Utilisez Predictor vannage (i.e. sélection des fonctionnalités): sélectionnez cette option pour simplifier le modèle en tentant d'exclure les prédicteurs non utiles.
- Arbre de pruneaux: sélectionnez cette option pour simplifier l'arborescence afin de réduire le surajustement en supprimant les fractionnements d'arborescence.
- Évaluation des fractionnements avancés dans les données: sélectionnez cette option pour effectuer des évaluations avec des variables secondaires afin de confirmer quelle branche est la prédiction la plus précise.
- Utiliser la méthode d'arrêt pour stimuler: sélectionnez pour évaluer si les itérations d'amplification deviennent inefficaces et, si c'est le cas, arrêtez l'amplification.
Hyperparamètres numériques: contrôles pour la distribution antérieure du modèle qui sont basés sur une valeur numérique.
- Sélectionnez le nombre d'itérations d'amplification: sélectionnez un 1 pour utiliser un seul modèle.
- Sélectionnez le facteur de confiance: Analogue du paramètre de complexité de la fonction rpart.
- Sélectionnez le nombre d'échantillons qui doivent être dans au moins 2 fractionnements: un plus grand nombre donne un plus petit, plus simplifié, l'arbre.
- Pourcentage des données détenues à partir de la formation pour l'évaluation du modèle: sélectionnez la partie des données utilisées pour former le modèle. Utilisez la valeur par défaut 0 si vous voulez utiliser toutes les données pour tester le modèle. Sélectionnez une valeur élevée pour conserver ce pourcentage de données de l’apprentissage et évaluer la précision du modèle
- Sélectionner une graine aléatoire pour l'algorithme: sélectionnez la valeur de la graine. La valeur doit être un entier positif.
Validation croisée: contrôles pour personnaliser une méthode de validation avec une utilisation efficace des informations disponibles.
- Utiliser la validation croisée pour déterminer les estimations de la qualité du modèle: sélectionnez cette option pour effectuer une validation croisée afin d'obtenir diverses métriques et graphiques de qualité de modèle. Certaines métriques et graphiques sont affichés dans la sortie R, et d'autres sont affichés dans la sortie I.
- Nombre de plis de validation croisée: le nombre de sous-échantillons dont les données sont divisées pour la validation ou la formation. Plus le nombre de plis est élevé, plus les estimations de la qualité du modèle sont fiables ; toutefois, plus le nombre de plis est bas, plus l’outil s’exécute rapidement.
- Nombre d'essais de validation croisée: nombre de fois que la procédure de validation croisée est répétée. Les plis sont choisis différemment dans chaque essai, et les résultats sont moyennés dans tous les essais. Plus le nombre de plis est élevé, plus les estimations de la qualité du modèle sont fiables ; toutefois, plus le nombre de plis est bas, plus l’outil s’exécute rapidement.
- Définir les semences pour la validation croisée externe: valeur qui détermine la séquence des tirages pour l'échantillonnage aléatoire. Cela entraîne le choix des mêmes enregistrements dans les données, bien que la méthode de sélection soit aléatoire et non dépendante de celles-ci.
- Sélectionnez la valeur de la semence aléatoire pour la validation croisée: sélectionnez la valeur de la graine. La valeur doit être un entier positif.
Emplacements: sélectionne et configure les graphiques qui apparaissent dans le rapport de sortie.
Afficher le rapport statique: sélectionnez cette option pour afficher un rapport récapitulatif du modèle à partir de l'ancre de sortie R. Sélectionné par défaut.
Parcelled'arbre: graphe des variables d'arbre de décision et des branches.
Tracer l'arborescence: cliquez pour inclure un graphique des variables d'arborescence de décision et des branches dans la sortie du rapport modèle.
- Distances de branchement uniformes: sélectionnez cette option pour afficher les branches d'arbre avec une longueur uniforme ou proportionnelle à l'importance relative d'un fractionnement pour prédire la cible.
- Résuméde feuille: Déterminez ce qui est affiché sur les noeuds finaux de feuille dans la parcelle d'arbre. Sélectionnez Counts si le nombre d'enregistrements est affiché. Sélectionnez les proportions si le pourcentage d'enregistrements totaux est affiché.
- Tailledu tracé: sélectionnez si le graphique est affiché en pouces ou en centimètres .
- Largeur: Réglez la largeur du graphe à l'aide de l'unité sélectionnée dans la taille du tracé.
- Hauteur: Réglez la hauteur du graphe à l'aide de l'unité sélectionnée dans la taille du tracé.
-
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 ppp) ; 2x (192 PPP) ; ou 3x (288 PPP). Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur. Une résolution élevée produit un fichier de plus grande taille avec une qualité d’impression supérieure.
- Taille de police de base (points): sélectionnez la taille de la police dans le graphique.
Parcelle de pruneaux: graphe simplifié de l'arbre décisionnel.
Afficher la parcelle de prune: cliquez pour inclure un graphique simplifié de l'arborescence de décision dans la sortie du rapport modèle.
- Tailledu tracé: sélectionnez si le graphique est affiché en pouces ou en centimètres .
- Largeur: Réglez la largeur du graphe à l'aide de l'unité sélectionnée dans la taille du tracé.
- Hauteur: Réglez la hauteur du graphe à l'aide de l'unité sélectionnée dans la taille du tracé.
-
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 ppp) ; 2x (192 PPP) ; ou 3x (288 PPP). Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur. Une résolution élevée produit un fichier de plus grande taille avec une qualité d’impression supérieure.
- Taille de police de base (points): définissez la taille de la police dans le graphique.
L’outil Arbre de décision prend en charge le traitement en BDD Microsoft SQL Server 2016 et Teradata. Voir Vue d’ensemble des outils En base de données pour plus d'informations sur le support et les outils de la base de données.
Si un outil Arbre de décision est placé sur le canevas avec un autre outil en BDD, l’outil bascule automatiquement vers la version en BDD. Pour changer la version de l’outil, cliquez avec le bouton droit sur l’outil, pointez le curseur sur Sélectionner la version de l’outil, puis cliquez sur une autre version de l’outil. Voir Analyse prédictive pour plus d'informations sur la prise en charge prédictive dans la base de données.
- Nomdu modèle: chaque modèle doit être donné un nom afin qu'il puisse être identifié ultérieurement.
- Un nom de modèle spécifique: saisissez le nom du modèle que vous souhaitez utiliser pour le modèle. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Aucun autre caractère spécial n’est autorisé et R est sensible à la casse.
- Générer automatiquement un nom de modèle: le concepteur génère automatiquement un nom de modèle qui répond aux paramètres requis.
- Sélectionnez la variable cible: sélectionnez le champ dans le flux de données que vous souhaitez prédire.
- Sélectionnez les variables prédictives: choisissez les champs du flux de données que vous croyez «provoquer» les modifications de la valeur de la variable cible.
- Utiliser des poids d'échantillonnage dans l'estimation du modèle (optionnel): sélectionner pour choisir un champ dans le flux de données d'entrée pour utiliser le poids d'échantillonnage du FO.
- Sélectionnez le champ poidsd'échantillonnage: sélectionnez un champ de poids dans le flux de données pour estimer un modèle qui utilise le poids d'échantillonnage. Un champ est utilisé à la fois comme prédicteur et comme variable de poids.
Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l’exécution.
La variable de poids apparaît dans l'appel de modèle dans la sortie avec la chaîne "Right_" ajouté.
- Typede modèle: sélectionnez le type de modèle qui va être utilisé.
- Classification: un modèle pour prédire une cible catégorique. Si vous utilisez un modèle de classification, sélectionnez également les critères de fractionnement.
- Coefficient de Gini
- index d'information basé sur l'entropie
- Régression: modèle pour prédire une cible numérique continue.
- Nombre minimal d'enregistrements nécessaires pour permettre un fractionnement: si le long d'un ensemble de branches d'un arbre, il y a moins d'enregistrements que le nombre minimal sélectionné que les autres fractionnements ne sont pas autorisés.
- Paramètre Complexity: ce paramètre contrôle la façon dont les fractionnements sont effectués (c'est-à-dire le nombre de branches dans l'arborescence). La valeur doit être inférieure à 1. Plus la valeur est faible, plus les branches sont nombreuses dans l’arbre final. La valeur « Auto » ou l’omission d’une valeur entraîne la sélection du « meilleur » paramètre de complexité en fonction de la validation croisée.
- Nombre minimal autorisé d'enregistrements dans un nœud terminal: le plus petit nombre d'enregistrements qui doivent être contenus dans un nœud terminal. Plus vous diminuez cette valeur, plus le nombre potentiel de nœuds terminaux finaux augmente.
- Utilisationde substitution: ce groupe d'options contrôle la façon dont les enregistrements avec les données manquantes dans les variables prédictives à une scission particulière sont adressés. La première option est d’omettre (supprimer) un enregistrement dont la variable utilisée dans le fractionnement a une valeur manquante. La deuxième option est d’utiliser des fractionnements de substitution, selon lesquels la direction d’envoi d’un enregistrement repose sur des fractionnements alternatifs sur une ou plusieurs autres variables présentant des résultats presque identiques. La troisième option est d’envoyer l’observation dans la direction de la majorité dans le fractionnement.
- Omettre une observation avec une valeur manquante pour la règle de fractionnement principale
- Utiliser des caractères de remplacement pour séparer les enregistrements dans lesquels la variable candidate est manquante
- Si tous les caractères de substitution sont manquants, envoyer l'observation dans la direction majoritaire
- Nombre total de classifications correctes pour une variable candidate potentielle
- Pourcentage correct calculé à l'aide des valeurs non manquantes d'une variable candidate
- Le nombre de plis à utiliser dans la validation croisée pour élaguer l'arbre: lorsque l'arbre est taillé par l'utilisation d'un paramètre de complexité, la validation croisée est utilisée pour déterminer le nombre de fractionnements, donc les branches, sont dans l'arborescence. Cette opération est effectuée via l’utilisation de la validation croisée, où N - 1 des plis sont utilisés pour créer un modèle, et le Ne pli est utilisé comme échantillon pour déterminer le nombre de branches optimal pour le pli de retenue afin d’éviter un surajustement. Il est possible de modifier le nombre de groupes (N) selon lequel les données doivent être divisées. La valeur par défaut est 10, mais d’autres valeurs courantes sont 5 et 20.
- La profondeur maximale autorisée de n'importe quel nœud dans l'arborescence finale: cette option limite la taille globale de l'arborescence en indiquant le nombre de niveaux autorisés à partir du nœud racine vers le nœud le plus éloigné de la racine.
- Nombre maximal d'emplacements à utiliser pour chaque variable numérique: la fonction d'échelle Revo (rxDTree) qui implémente l'arborescence de décision évolutive gère les variables numériques via un processus binning à intervalles égaux pour réduire la complexité du calcul. L’option « Par défaut » utilise une formule basée sur le nombre minimum d’enregistrements nécessaires pour un fractionnement, mais il est possible de définir cette valeur manuellement. Cette option ne s’applique que si l’entrée dans l’outil est un flux de métadonnées XDF.
- Parcelled'arbre: cet ensemble d'options contrôle un certain nombre d'options associées au traçage d'un arbre de décision.
- Résuméde feuille: le premier choix sous cette option est la nature du résumé de feuille. Cette option détermine si les nombres ou proportions sont imprimés dans les nœuds feuilles finaux dans le diagramme d’arborescence.
- Compte:
- Proportions:
- Distances de branchement uniformes: la deuxième option consiste à déterminer si des distances de branchement uniformes doivent être utilisées. Cette option détermine si la longueur des branches d’arborescence dessinées reflète l’importance relative d’un fractionnement pour prévoir la cible ou si elle est uniforme dans le diagramme d’arborescence.
- Parcelle de terrain: cette option vous permet de définir la taille, la résolution et la police de base de la parcelle d'élagage d'une manière analogue à la parcelle d'arbre.
- Taille du tracé: définissez les dimensions du tracé de l'arborescence de sortie.
- Pouces: Réglez la largeur et la hauteur de l'intrigue.
- Centimètres: Réglez la largeur et la hauteur de l'intrigue.
-
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 ppp) ; 2x (192 PPP) ; ou 3x (288 PPP). Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur. Une résolution élevée produit un fichier de plus grande taille avec une qualité d’impression supérieure.
- Taille de police de base (points) : taille de la police en points.
Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.
- O (sortie): affiche le nom du modèle et la taille de l'objet dans la fenêtre de résultats.
- R (rapport): affiche un rapport récapitulatif du modèle qui comprend un résumé et des parcelles.
- I (interactif): affiche un tableau de bord interactif de supports visuels qui vous permet de zoomer, de planer et de cliquer.
Comportement attendu: précision du tracé
Lors de l'utilisation de l'outil arbre de décision pour le traitement standard, la sortie interactive affiche une plus grande précision avec des valeurs numériques que la sortie du rapport.