Skip to main content

Spline Model Tool Icon Outil Modèle Spline

Exemple d'outil unique

L'outil Modèle de forêt dispose d'un exemple d'outil unique. Consultez la page Exemples de workflows pour savoir comment accéder à cet exemple et à de nombreux autres exemples directement dans Alteryx Designer.

(1) identifie automatiquement quel sous-ensemble de champs prédit le mieux un champ d’intérêt cible ; (2) est capable de capturer des relations extrêmement non linéaires et des interactions entre les champs ; et peuvent répondre automatiquement à une grande diversité de problèmes de régression et de classification de manière transparente pour l’utilisateur (l’utilisateur n’a plus qu’à préciser un champ cible et un jeu de champs prédicteurs, mais l’outil peut être extrêmement affiné par des utilisateurs chevronnés).

L’outil est applicable à un grand nombre de problèmes, par exemple, classification, données de comptage et problèmes de régression à cible continue. La méthode utilise une approche en deux étapes pour développer un modèle. Lors de la première étape (connue en tant que passage ascendant, et qui est similaire à l’algorithme de partitionnement récursif utilisé dans l’outil Arbre de décision), on trouve les variables qui importent le plus dans la prédiction de la cible déterminée et les « points de rupture » (connus sous le nom de « nœuds ») appropriés dans les variables. Cependant, contrairement à l’arbre de décision, une ligne entre les nœuds adjacents (appelée un terme) convient mieux plutôt que d’utiliser des sauts discrets comme dans les arbres de décision. Ceci se traduit par la construction d’une fonction linéaire par partie pour chaque variable qui peut étroitement se rapprocher de toute relation entre la cible et les variables prédictives. La seconde étape (connue sous le nom de passage descendant ou passage d’ajustement) élimine certains nœuds dans les variables (en allongeant le segment de ligne dans les termes restants) afin de minimiser le risque de surapprentissage sur l’échantillon d’estimation (c’est-à-dire la capture du bruit de l’échantillon d’estimation en opposition au signal sous-jacent).

Cet outil utilise l'outil R. Accédez à OptionsTélécharger les outils prédictifs et connectez-vous au portail Alteryx Downloads and Licenses Portal pour installer R et les paquets utilisés par l'outil R. Consultez  Télécharger et utiliser les outils prédictifs.

Entrée

Un flux de données Alteryx qui inclut un champ cible d’intérêt, ainsi qu'un ou plusieurs champs prédicteurs possibles.

Configuration de l'outil

Utilisez l'onglet De base pour définir les contrôles obligatoires de l'outil Télécharger.

  • Nom de modèle : vous devez attribuer un nom à chaque modèle afin de pouvoir les identifier ultérieurement. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point ( . ) et trait de soulignement ( _ ). Aucun autre caractère spécial n'est autorisé et R est sensible à la casse.

  • Sélectionnez le champ cible : sélectionnez le champ du flux de données à prédire.

  • Sélectionnez les champs prédicteurs : sélectionnez les champs du flux de données dont vous pensez qu'ils « provoquent » des changements de valeur de la variable cible. Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l'exécution.

  • Si cette case est cochée, les tracés d’effets seront produits et illustreront de manière graphique la relation entre la variable prédictive et la cible à des niveaux fixés (la médiane pour les prédicteurs numériques, le premier niveau pour les facteurs) pour les autres champs prédicteurs. Il existe des options qui vous permettent d’afficher uniquement les champs qui ont un effet principal sur la cible, uniquement les effets à interaction bidirectionnelle entre les champs à l’aide d’un tracé perspectif, ou à la fois les principaux effets et les interactions bidirectionnelles.

Utilisez l' onglet Personnalisation du modèle (facultatif) pour apporter des ajustements plus spécifiques au modèle.

  • Spécifiez le type de cible et la famille GLM : cinq types de champs cibles sont pris en charge :

    • les cibles continues (p. ex., les cibles numériques où toute valeur unique donnée représente un pourcentage relativement petit du total des instances) ;

    • les cibles distribuées Gamma (cibles numériques strictement positives qui représentent un pourcentage élevé de valeurs de réponse relativement faibles, mais un petit pourcentage de valeurs relativement élevées) ;

    • les cibles « compteur » (p.ex., les cibles à valeurs entières pour lesquelles la plupart des valeurs uniques représentent un pourcentage relativement élevé du total des instances, par exemple, le nombre de visites chez le médecin qu’une personne compte par an) ;

    • les cibles catégorielles binaires (p. ex., les champs cibles de la variété « oui/non ») ;

    • les cibles catégorielles multinomiales (p. ex., les champs cibles avec un nombre limité de résultats distincts, comme « A », « B » ou « C »). Chaque type de champ cible peut avoir une ou plusieurs fonction(s) de distribution possible(s) associée(s) (en lien avec la mesure que l’algorithme tente de minimiser).

    • Les cibles continues peuvent avoir soit une distribution explicite ou une distribution gaussienne (ou normale).

    • Dans le cas d’une cible distribuée Gamma, il faut choisir la fonction de liaison à utiliser (la relation entre les moyens de distribution et le prédicteur linéaire).

    • Les cibles « compteur » (entier) minimisent une fonction de perte sur la base de la distribution de Poisson, et utilisent soit un log (de préférence) ou une fonction de liaison d’identité.

    • Les cibles catégorielles binaires peuvent utiliser un logit (également utilisé dans la régression logistique classique), un probit ou une fonction de liaison Logarithme double complémentaire.

    • Une réponse catégorielle multinomiale est traitée de manière non standard. Plus spécifiquement, plutôt que d’estimer un vrai modèle multinomial, un jeu de modèles binaires (utilisant une fonction de liaison logit) est estimé. Par exemple, si les réponses possibles sont "A", "B" ou "C", ce qui est estimé est un modèle de : "a" par rapport à tout autre choix, "B" par rapport à tout autre choix, et "C" par rapport à tout autre choix.

  • Si la variable cible est une variable continue et que cette option est sélectionnée, elle sera sujette à une transformation de score z (moyenne zéro, écart-type de un) pour faciliter la stabilité numérique dans le passage ascendant (première étape) de l’algorithme.

  • Cette option contrôle le nombre de nœuds possibles (ruptures) dans les champs prédicteurs dans le passage ascendant (première étape) de l’algorithme. Si « Auto » est sélectionné, le nombre de nœuds est calculé en fonction du nombre de champs prédicteurs. Le nombre réel de nœuds dans le passage ascendant sera souvent inférieur au maximum autorisé.

  • Profondeur d'interaction : niveau d'interaction entre les champs prédictifs.

    • Si deux champs prédicteurs sont en interaction bidirectionnelle, l’effet d’un champ prédicteur sur la cible dépend du niveau du second champ prédicteur.

    • En cas d’interaction tridirectionnelle, l’effet d’un champ prédicteur sur la cible dépend de la valeur des deux autres champs prédicteurs.

    • Vous pouvez spécifier des interactions allant jusqu’à 5 directions (profondeur d’interaction de 5). La valeur par défaut de ce paramètre est définie sur 1 (hypothèse implicite d’une absence d’interaction entre les champs prédicteurs). L’augmentation de la profondeur d’interaction peut considérablement accroître le temps d’exécution du modèle.

  • La fonction à optimiser contient un composant de pénalité pour réduire la possibilité de surapprentissage du modèle final sur les données d’échantillonnage d’estimation. La valeur par défaut est une valeur de 2 pour un modèle à principaux effets uniquement et 3 si des interactions bidirectionnelles ou multidirectionnelles sont autorisées. Une valeur de -1 signifie l’absence de pénalité pour les nœuds ou les termes, alors qu’une valeur de 0 applique la pénalité par défaut uniquement aux termes.

  • Plus la valeur de ces termes est élevée, plus l’amélioration à apporter dans R-carré doit être importante pour le modèle afin d’ajouter un nœud.

  • Si 0 est sélectionné, alors la distance minimum autorisée est calculée sur la base d’une formule, une valeur de 1 autorise n’importe quelle valeur d’une variable prédictive à être un nœud (ceci fonctionne bien uniquement si les données présentent très peu de bruit), sinon une valeur numérique entre 0 et 1 doit être renseignée pour donner la distance sous forme de pourcentage de la plage d’une variable prédictive.

  • Terme de pénalité supplémentaire ajouté à la fonction objectif pour l’ajout d’une nouvelle variable au modèle. La valeur par défaut est 0 (aucune) et cette valeur peut aller de 0 à 0,5. Tout comme avec la pénalité par nœud ou terme, l’objectif consiste à contrôler le surapprentissage.

  • Le nombre maximum de termes parents pris en compte à chaque étape de la passe avant: ce terme contrôle le nombre de termes qui sont créés dans une passe avant, ce qui peut accélérer l'exécution. Une valeur spéciale de 0 ne place aucune limite sur le terme, alors qu’un numéro supérieur à 0 précise le nombre de termes maximum. La valeur par défaut est 20 termes, les valeurs courantes sont 20, 10 et 5.

  • Voir Section 3.1 de Friedman (1993) pour une explication de ce paramètre.***

  • Cette option permet une évaluation par validation croisée afin de voir si un ajustement suffisant a été fait par rapport à la méthode de validation croisée généralisée utilisée par l’algorithme. Si cette option est sélectionnée, l’utilisateur peut indiquer le nombre d’exécutions de validations croisées distinctes, le nombre de plis dans chaque exécution de validation croisée, si les échantillons de la validation croisée sont stratifiés pour avoir un mélange comparable de réponses pour une cible catégorielle (p. ex. un nombre comparable de réponses « oui » et de « non » pour une variable catégorielle binaire), et la valeur d’amorce aléatoire pour les numéros aléatoires générés pour créer les échantillons.

  • Les choix sont Élimination descendante, Aucun, Recherche approfondie, Sélection ascendante » et Remplacement séquentiel.

    • L’élimination descendante (par défaut) commence par tous les nœuds et termes trouvés lors du passage ascendant, puis élimine d’abord le terme le moins prédictif (en réalisant les ajustements appropriés au niveau des termes affectés restants), elle compare ensuite l’effet sur la mesure de la validation croisée généralisée par rapport au modèle complet. Si la mesure de la validation croisée généralisée n’est pas améliorée en supprimant un terme, le modèle créé après le passage ascendant est retourné. S’il y a une amélioration dans la mesure de la validation croisée généralisée, ce terme est retiré du modèle, et le processus est répété pour les termes qui restent. Si à tout moment, le retrait d’un terme n’améliore pas la mesure de la validation croisée généralisée par rapport au modèle créé dans la dernière itération, le processus s’achève.

    • Si le choix est « aucun », tous les termes trouvés dans le passage ascendant sont utilisés dans le modèle final.

    • Dans la recherche approfondie, toutes les combinaisons des termes trouvés dans l’étape de recherche ascendante sont examinées, mais ceci est coûteux d’un point de vue informatique.

    • Dans la suppression ascendante, tous les termes à l’exception de l’intercept sont supprimés, et ensuite le meilleur terme parmi ceux trouvés dans le passage ascendant est déterminé et inclus dans le modèle (en supposant qu’il améliore la mesure de la validation croisée généralisée par rapport à un modèle avec intercept uniquement). Ce processus se poursuit jusqu’à ce qu’aucun terme supplémentaire ne puisse être ajouté pour améliorer la mesure de la validation croisée généralisée.

    • Dans le remplacement séquentiel, une solution avec un nombre donné de termes présente un terme remplacé par tous les autres termes restants possibles trouvés dans le passage ascendant et qui n’est pas déjà inclus dans le jeu de termes du passage d’ajustement. Si un nouveau terme est trouvé et améliore la mesure de la validation croisée généralisée par rapport au terme d’origine, le terme d’origine est remplacé par le nouveau terme.

  • Si 0 est sélectionné (valeur par défaut), alors tous les termes qui restent après les autres critères utilisés dans le passage d’ajustement sont appliqués et utilisés dans le modèle final, sinon, seuls les termes les plus importants jusqu’au nombre sélectionné sont retenus dans le modèle final.

    Dans l'onglet « Options des graphiques », définissez les contrôles de la sortie graphique (facultatif).

  • Taille du tracé : sélectionnez « pouces » ou « centimètres » pour indiquer la taille du graphique.

  • Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 dpi) ; 2x (192 dpi) ou 3x (288 dpi).

    • Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur.

    • Une résolution élevée produit un fichier de plus grande taille avec une qualité d'impression supérieure.

  • Taille de la police de base (points) : sélectionnez la taille de la police dans le graphique.

Visualisation de la sortie

Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.

  • Ancrage O : table du modèle sérialisé avec son nom de modèle.

  • Se compose des snippets de rapports générés par l’outil Modèle Spline : un résumé du modèle de base, un tracé d’importance des variables (qui indique l’importance relative des différents champs prédicteurs), un tracé du diagnostic du modèle de base et les tracés des effets (facultatif).

*https://en.wikipedia.org/wiki/Multivariate_adaptive_regression_splines

**Freidman, Jerome H., "Multivariate Adaptive Regression Splines", Stanford University, Août 1990

***Freidman, Jerome H., "Fast mars", Technical Report No. 102, Département de statistique, Université Stanford, mai 1993