Stepwise Tool Icon

Outil Pas à Pas

Version:
2022.3
Last modified: September 25, 2020

L’outil Pas à pas détermine les meilleures variables prédictives à inclure dans un modèle parmi un plus grand ensemble de variables prédictives potentielles pour les modèles de régression linéaire, logistique et autres modèles de régression traditionnels.

Il existe deux approches utilisées dans la mise en œuvre de la régression pas à pas. La première (connue comme la sélection descendante) implique l’utilisation d’un modèle qui inclut toutes les variables qui sont censées potentiellement influencer la variable cible, et ensuite elle retire séquentiellement la variable la moins importante du modèle d’origine en fonction d’une mesure de qualité d’ajustement qui règle le nombre de variables incluses dans le modèles. Ce processus se poursuit et d’autres variables sont retirées par pas descendants successifs, jusqu’à ce qu’il n’y ait plus d’amélioration possibles dans la mesure d’ajustement ajustée. La seconde approche de base (connue comme la sélection des variables ascendante) commence avec un modèle qui inclut uniquement une constante, puis ajoute ensuite à ce modèle une variable parmi un jeu de variables potentielles qui fournit la plus grosse amélioration dans la mesure d’ajustement ajustée. Ce processus est répété pour ajouter des variables supplémentaires en utilisant un jeu des pas ascendants supplémentaires, et il se termine lorsqu’il n’y a plus d’amélioration possible dans la mesure d’ajustement ajustée. Dans la base de la sélection ascendante des variables, une variable qui est retirée ne ré-entre jamais dans les pas ultérieurs, alors que dans la sélection ascendante une variable n’est jamais retirée dans les pas ultérieurs une fois qu’elle a été ajoutée. Une approche hybride peut être utilisée et commence avec un grand (« maximal ») modèle initial et un premier pas descendant, mais les mouvements ascendant et descendant sont tous deux évalués à chaque pas ultérieur.

L’outil de régression pas à pas basé sur R d’Alteryx utilise à la fois la sélection rétrograde des variables et un mélange de sélections des variables descendante et ascendante. Pour utiliser l’outil, créez d’abord un modèle de régression « maximal » qui inclut toutes les variables qui pourraient importer, puis utilisez l’outil de régression pas à pas pour déterminer les variables qui devraient être retirées sur la base d’une mesure d’ajustement ajustée. Un choix parmi deux mesures d’ajustement ajustées différentes est proposé à l’utilisateur, le critère d’information d’Akaike** (en anglais Akaike information criterion ou AIC) et le critère d’information bayésien*** (en anglais bayesian information criterion ou BIC). Ces deux mesures se ressemblent, mais le BIC place une pénalité plus importante sur le nombre de variables incluses dans le modèle, ce qui donne généralement un modèle final avec moins de variables que dans le cas d’un AIC.

Avec cet outil, si les données d’entrée proviennent d’un flux de données Alteryx standard, alors la fonction R open source applicable permet d’estimer le modèle. Si l’entrée provient d’un outil de sortie XDF ou d’un outil d’entrée XDF, la fonction Revo ScaleR appropriée est utilisée pour l’estimation du modèle. L’avantage qui consiste à utiliser la fonction sous Revo ScaleR est qu’elle permet d’analyser des jeux de données plus grands (au-delà de la capacité de la mémoire), mais avec l’incapacité de créer une sortie de diagnostic modèle qui est disponible avec les fonctions R open source.

Cet outil utilise l’outil R. Accédez à Options > Téléchargez des outils prédictifs et connectez-vous au portail Téléchargements et licences Alteryx pour installer R et les packages utilisés par l’outil R. Voir Télécharger et utiliser des outils prédictifs.

Connecter les entrées

  • Flux de sortie d’un outil Régression de comptage, Régression linéaire ou Régression logistique utilisé pour créer le modèle « maximal ». Le flux peut être entré dans l’un des côtés de l’outil.
  • Le même flux de données Alteryx ou flux de métadonnées XDF qui a été utilisé pour créer le modèle « maximal ». Le flux peut être entré dans l’un des côtés de l’outil.

Configuration de l'outil

Utilisez l’onglet Configuration pour définir les contrôles du modèle stepwise.

  • Le nom du nouveau modèle : Il s’agit du meilleur modèle trouvé à l’aide de la sélection de variables en sens inverse en fonction de la direction de recherche et des critères de sélection chosen. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres et la période des caractères spéciaux (« ») et souligner (« »). Aucun autre caractère spécial (comme les espaces) n’est autorisé et R est sensible à la casse.
  • Direction de recherche : Que la direction de la recherche implique à la fois des pas en arrière et en avant (la méthode commence par un pas en arrière), ou seulement des pas en arrière sont utilisés.
  • Mesure d’ajustement ajustée : Les critères utilisés pour comparer les différents modèles et sélection le meilleur modèle. Les choix proposés sont le critère d’information d’Akaike (AIC) ou le critère d’information bayésien (BIC).

Utilisez l’onglet Options graphiques pour définir les contrôles de la sortie graphique.

  • Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 ppp) ; 2x (192 PPP) ; ou 3x (288 PPP). Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur. Une résolution élevée produit un fichier de plus grande taille avec une qualité d’impression supérieure.

Afficher la sortie

Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.

  • O ancre : Se compose d’une table du modèle sérialisé avec le nom du modèle et la taille de l’objet.
  • Ancre R : Se compose des extraits de rapport générés par l’outil Stepwise : un résumé statistique, une analyse de type II des tests de déviance ou d’ANOVA, et des parcelles diagnostiques de base. Les tables Analyse de déviance de type II ou Analyse de la variance et les tracés des diagnostics de base ne sont pas produits lorsque les entrées de données proviennent d’un outil Sortie XDF ou Entrée XDF.

*https://en.wikipedia.org/wiki/Stepwise_regression
**https://en.wikipedia.org/wiki/Akaike_information_criterion
https://en.wikipedia.org/wiki/Bayesian_information_criterion

Cette page vous a-t-elle été utile ?

Vous rencontrez des problèmes avec votre produit Alteryx ? Visitez la communauté Alteryx ou contactez le  support. Vous n'arrivez pas à soumettre ce formulaire ? Envoyez-nous un e-mail.