Outil Pas à pas

L’outil Pas à pas détermine les meilleures variables prédictives à inclure dans un modèle parmi un plus grand ensemble de variables prédictives potentielles pour les modèles de régression linéaire, logistique et autres modèles de régression traditionnels.

Il existe deux approches utilisées dans la mise en œuvre de la régression pas à pas. La première (connue comme la sélection descendante) implique l’utilisation d’un modèle qui inclut toutes les variables qui sont censées potentiellement influencer la variable cible, et ensuite elle retire séquentiellement la variable la moins importante du modèle d’origine en fonction d’une mesure de qualité d’ajustement qui règle le nombre de variables incluses dans le modèles. Ce processus se poursuit et d’autres variables sont retirées par pas descendants successifs, jusqu’à ce qu’il n’y ait plus d’amélioration possibles dans la mesure d’ajustement ajustée. La seconde approche de base (connue comme la sélection des variables ascendante) commence avec un modèle qui inclut uniquement une constante, puis ajoute ensuite à ce modèle une variable parmi un jeu de variables potentielles qui fournit la plus grosse amélioration dans la mesure d’ajustement ajustée. Ce processus est répété pour ajouter des variables supplémentaires en utilisant un jeu des pas ascendants supplémentaires, et il se termine lorsqu’il n’y a plus d’amélioration possible dans la mesure d’ajustement ajustée. Dans la base de la sélection ascendante des variables, une variable qui est retirée ne ré-entre jamais dans les pas ultérieurs, alors que dans la sélection ascendante une variable n’est jamais retirée dans les pas ultérieurs une fois qu’elle a été ajoutée. Une approche hybride peut être utilisée et commence avec un grand (« maximal ») modèle initial et un premier pas descendant, mais les mouvements ascendant et descendant sont tous deux évalués à chaque pas ultérieur.

L’outil de régression pas à pas basé sur R d’Alteryx utilise à la fois la sélection rétrograde des variables et un mélange de sélections des variables descendante et ascendante. Pour utiliser l’outil, créez d’abord un modèle de régression « maximal » qui inclut toutes les variables qui pourraient importer, puis utilisez l’outil de régression pas à pas pour déterminer les variables qui devraient être retirées sur la base d’une mesure d’ajustement ajustée. Un choix parmi deux mesures d’ajustement ajustées différentes est proposé à l’utilisateur, le critère d’information d’Akaike** (en anglais Akaike information criterion ou AIC) et le critère d’information bayésien*** (en anglais bayesian information criterion ou BIC). Ces deux mesures se ressemblent, mais le BIC place une pénalité plus importante sur le nombre de variables incluses dans le modèle, ce qui donne généralement un modèle final avec moins de variables que dans le cas d’un AIC.

Avec cet outil, si les données d’entrée proviennent d’un flux de données Alteryx standard, alors la fonction R open source applicable permet d’estimer le modèle. Si l'entrée provient soit d'un  Outil Sortie XDF ou Outil Entrée XDF outil, alors la fonction d'échelle Revo appropriée est utilisée pour l'estimation du modèle. L’avantage qui consiste à utiliser la fonction sous Revo ScaleR est qu’elle permet d’analyser des jeux de données plus grands (au-delà de la capacité de la mémoire), mais avec l’incapacité de créer une sortie de diagnostic modèle qui est disponible avec les fonctions R open source.

Cet outil utilise l’outil R. Allez dans Options > Télécharger les outils prédictifs et connectez-vous à la Portail Téléchargements et licences Alteryx pour installer l’outil R et les packages utilisés par ce dernier. Reportez-vous à la page Outil R. Voir Télécharger et utiliser les outils prédictifs.

Connecter les entrées

  • Flux de sortie d’un outil Régression de comptage, Régression linéaire ou Régression logistique utilisé pour créer le modèle « maximal ». Le flux peut être entré dans l’un des côtés de l’outil.
  • Le même flux de données Alteryx ou flux de métadonnées XDF qui a été utilisé pour créer le modèle « maximal ». Le flux peut être entré dans l’un des côtés de l’outil.

Configurer l’outil

Utilisez l' onglet Configuration pour définir les contrôles du modèle par étapes.

  • Le nom du nouveau modèle: il s'agit du meilleur modèle trouvé en utilisant la sélection de variable progressive en fonction du sens de la recherche et des critères de sélection choisis. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Aucun autre caractère spécial (comme les espaces) n’est autorisé et R est sensible à la casse.
  • Direction de la recherche: si le sens de la recherche implique des étapes en arrière et en avant (la méthode commence par un pas en arrière), ou uniquement les étapes en arrière sont utilisées.
  • Ajustement ajusté mesure: les critères utilisés pour comparer les différents modèles et la sélection du meilleur modèle. Les choix proposés sont le critère d’information d’Akaike (AIC) ou le critère d’information bayésien (BIC).

Utilisez l' onglet options graphiques pour définir les commandes de la sortie graphique.

  • Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 ppp) ; 2x (192 PPP) ; ou 3x (288 PPP). Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur. Une résolution élevée produit un fichier de plus grande taille avec une qualité d’impression supérieure.

Afficher la sortie

Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.

  • O ancre: se compose d'une table du modèle sérialisé avec le nom du modèle et la taille de l'objet.
  • R ancre: se compose des extraits de rapport générés par l'outil par étapes: un résumé statistique, l'analyse de type II des tests de déviance ou de ANOVA, et des parcelles diagnostiques de base. Les tables Analyse de déviance de type II ou Analyse de la variance et les tracés des diagnostics de base ne sont pas produits lorsque les entrées de données proviennent d’un outil Sortie XDF ou Entrée XDF.

* https://en.wikipedia.org/wiki/Stepwise_regression * * https://en.wikipedia.org/wiki/Akaike_information_criterion * **https://en.wikipedia.org/wiki/Bayesian_information_criterion