
Outil Modèle Spline
L’outil Modèle Spline fournit l’algorithme de régression multivariée par spline adaptative (ou fonctions MARS) de Friedman.* Cette méthode est un modèle d’apprentissage statistique moderne qui : (1) détermine soi-même quel sous-ensemble de champs prédit le mieux un champ d’intérêt cible; (2) est capable de capturer des relations et des interactions très non ligneraires entre les champs; et peut répondre automatiquement à un large éventail de problèmes de régression et de classification d’une manière qui peut être transparente pour l’utilisateur (l’utilisateur peut faire aussi peu que spécifier un champ cible et un ensemble de champs de prédicteur, mais l’outil peut être largement peaufiné par les utilisateurs avancés).
L’outil est applicable à un grand nombre de problèmes, par exemple, classification, données de comptage et problèmes de régression à cible continue. La méthode utilise une approche en deux étapes pour développer un modèle. Lors de la première étape (connue en tant que passage ascendant, et qui est similaire à l’algorithme de partitionnement récursif utilisé dans l’outil Arbre de décision), on trouve les variables qui importent le plus dans la prédiction de la cible déterminée et les « points de rupture » (connus sous le nom de « nœuds ») appropriés dans les variables. Cependant, contrairement à l’arbre de décision, une ligne entre les nœuds adjacents (appelée un terme) convient mieux plutôt que d’utiliser des sauts discrets comme dans les arbres de décision. Ceci se traduit par la construction d’une fonction linéaire par partie pour chaque variable qui peut étroitement se rapprocher de toute relation entre la cible et les variables prédictives. La seconde étape (connue sous le nom de passage descendant ou passage d’ajustement) élimine certains nœuds dans les variables (en allongeant le segment de ligne dans les termes restants) afin de minimiser le risque de surapprentissage sur l’échantillon d’estimation (c’est-à-dire la capture du bruit de l’échantillon d’estimation en opposition au signal sous-jacent).
Cet outil utilise l’outil R. Accédez à Options > Téléchargez des outils prédictifs et connectez-vous au portail Téléchargements et licences Alteryx pour installer R et les packages utilisés par l’outil R. Voir Télécharger et utiliser des outils prédictifs.
Entrée
Flux de données Alteryx qui inclut un champ cible d’intérêt avec un ou plusieurs champs prédicteurs possibles.
Configuration de l'outil
Utilisez l’onglet Paramètres requis pour définir les contrôles obligatoires du modèle Spline.
- Nom du modèle : Chaque modèle doit recevoir un nom afin qu’il puisse être identifié ultérieurement. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Aucun autre caractère spécial n’est autorisé et R est sensible à la casse.
- Sélectionnez le champ cible : Sélectionnez le champ dans le flux de données que vous souhaitez prédire.
- Sélectionnez les champs predictor : Choisissez les champs du flux de données que vous croyez « provoquer » des modifications dans la valeur de la variable cible.
Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l’exécution. - Inclure tracés d’effets ? : Si cette case est cochée, les tracés d’effets seront produits et illustreront de manière graphique la relation entre la variable prédictive et la cible à des niveaux fixés (la médiane pour les prédicteurs numériques, le premier niveau pour les facteurs) pour les autres champs prédicteurs. Il existe des options qui vous permettent d’afficher uniquement les champs qui ont un effet principal sur la cible, uniquement les effets à interaction bidirectionnelle entre les champs à l’aide d’un tracé perspectif, ou à la fois les principaux effets et les interactions bidirectionnelles.
Utilisez l’onglet Personnalisation du modèle (facultatif) pour effectuer des ajustements plus spécifiques au modèle.
- Spécifiez le type cible et la famille GLM: cinq types de champs cibles sont pris en charge:
- les cibles continues (p. ex., les cibles numériques où toute valeur unique donnée représente un pourcentage relativement petit du total des instances) ;
- les cibles distribuées Gamma (cibles numériques strictement positives qui représentent un pourcentage élevé de valeurs de réponse relativement faibles, mais un petit pourcentage de valeurs relativement élevées) ;
- les cibles « compteur » (p.ex., les cibles à valeurs entières pour lesquelles la plupart des valeurs uniques représentent un pourcentage relativement élevé du total des instances, par exemple, le nombre de visites chez le médecin qu’une personne compte par an) ;
- les cibles catégorielles binaires (p. ex., les champs cibles de la variété « oui/non ») ;
- Cibles catégoriques multinomiales (p. ex., domaines cibles avec un nombre limité de résultats distincts, tels que « A », « B » ou « C »)
Chaque type de champ cible peut avoir une ou plusieurs fonctions de distribution associées possibles (ce qui est lié à la mesure que l’algorithme tente de minimiser). - Les cibles continues peuvent avoir soit une distribution explicite ou une distribution gaussienne (ou normale).
- Dans le cas d’une cible distribuée Gamma, il faut choisir la fonction de liaison à utiliser (la relation entre les moyens de distribution et le prédicteur linéaire).
- Les cibles « compteur » (entier) minimisent une fonction de perte sur la base de la distribution de Poisson, et utilisent soit un log (de préférence) ou une fonction de liaison d’identité.
- Les cibles catégorielles binaires peuvent utiliser un logit (également utilisé dans la régression logistique classique), un probit ou une fonction de liaison Logarithme double complémentaire.
- Une réponse catégorielle multinomiale est traitée de manière non standard. Plus spécifiquement, plutôt que d’estimer un vrai modèle multinomial, un jeu de modèles binaires (utilisant une fonction de liaison logit) est estimé. Par exemple, si les réponses possibles sont "a", "b" ou "c", ce qui est estimé est un modèle de: "a" contre tout autre choix, "b" contre tout autre choix, et "c" contre tout autre choix.
- Échelle de la variable cible : Si la variable cible est une variable continue et que cette option est sélectionnée, elle sera soumise à une transformation z-score (moyenne zéro, écart type d’un) pour aider à la stabilité numérique dans la passe avant (première étape) de l’algorithme.
- Le nombre maximal de nœuds ou de déterminer automatiquement (Auto): Cette option contrôle le nombre de nœuds possibles (fractionnements) dans les champs de prédicteur dans le passage avant (première étape) de l’algorithme. Si « Auto » est sélectionné, le nombre de nœuds est calculé en fonction du nombre de champs prédicteurs. Le nombre réel de nœuds dans le passage ascendant sera souvent inférieur au maximum autorisé.
- Profondeur d'interaction : niveau d'interaction entre les champs prédictifs.
- Si deux champs prédicteurs sont en interaction bidirectionnelle, l’effet d’un champ prédicteur sur la cible dépend du niveau du second champ prédicteur.
- En cas d’interaction tridirectionnelle, l’effet d’un champ prédicteur sur la cible dépend de la valeur des deux autres champs prédicteurs.
- Vous pouvez spécifier des interactions allant jusqu’à 5 directions (profondeur d’interaction de 5). La valeur par défaut de ce paramètre est définie sur 1 (hypothèse implicite d’une absence d’interaction entre les champs prédicteurs). L’augmentation de la profondeur d’interaction peut considérablement accroître le temps d’exécution du modèle.
- Pénalité par terme ou nœud : La fonction à optimiser contient un composant de pénalité pour diminuer la possibilité que le modèle final dépasse les données de l’échantillon d’estimation. La valeur par défaut est une valeur de 2 pour un modèle à principaux effets uniquement et 3 si des interactions bidirectionnelles ou multidirectionnelles sont autorisées. Une valeur de -1 signifie l’absence de pénalité pour les nœuds ou les termes, alors qu’une valeur de 0 applique la pénalité par défaut uniquement aux termes.
- L’amélioration minimale de R-Squared nécessaire pour ajouter un nœud supplémentaire: Plus la valeur de ces termes est élevée, plus l’amélioration de R-Squared doit être élevée pour le modèle afin d’ajouter un nœud.
- La distance minimale entre les nœuds: Si 0 est sélectionné, alors la distance minimale autorisée est calculée sur la base d’une formule, une valeur de 1 permet à l’une des valeurs d’une variable prédicteur d’être un nœud (qui ne fonctionne bien que si les données ont très peu de bruit), sinon une valeur numérique comprise entre 0 et 1 doit être fournie qui donne la distance en pourcentage de la plage d’une variable de prédicteur.
- Nouvelle pénalité variable : Le terme de pénalité supplémentaire annexé à la fonction objective pour l’ajout d’une nouvelle variable au modèle. La valeur par défaut est 0 (aucune) et cette valeur peut aller de 0 à 0,5. Tout comme avec la pénalité par nœud ou terme, l’objectif consiste à contrôler le surapprentissage.
- Le nombre maximal de termes parent pris en considération à chaque étape du laissez-passer vers l’avant : Ce terme contrôle le nombre de termes créés dans un passage vers l’avant, ce qui peut accélérer l’exécution. Une valeur spéciale de 0 ne place aucune limite sur le terme, alors qu’un numéro supérieur à 0 précise le nombre de termes maximum. La valeur par défaut est 20 termes, les valeurs courantes sont 20, 10 et 5.
- Le coefficient de vieillissement rapide de MARS : Voir la section 3.1 de Friedman (1993) pour obtenir une explication de ce paramètre.***
- Effectuez une analyse de validation croisée : Cette option permet une évaluation de validation croisée quant à savoir si un élagage suffisant a eu lieu par rapport à la méthode généralisée de validation croisée utilisée par l’algorithme. Si cette option est sélectionnée, l’utilisateur peut indiquer le nombre d’exécutions de validations croisées distinctes, le nombre de plis dans chaque exécution de validation croisée, si les échantillons de la validation croisée sont stratifiés pour avoir un mélange comparable de réponses pour une cible catégorielle (p. ex. un nombre comparable de réponses « oui » et de « non » pour une variable catégorielle binaire), et la valeur d’amorce aléatoire pour les numéros aléatoires générés pour créer les échantillons.
- La méthode d’élagage: Les choix sont « Élimination arrière », « Aucun », « recherche exhaustive », « sélection avancée » et « remplacement séquentiel ».
- L’élimination descendante (par défaut) commence par tous les nœuds et termes trouvés lors du passage ascendant, puis élimine d’abord le terme le moins prédictif (en réalisant les ajustements appropriés au niveau des termes affectés restants), elle compare ensuite l’effet sur la mesure de la validation croisée généralisée par rapport au modèle complet. Si la mesure de la validation croisée généralisée n’est pas améliorée en supprimant un terme, le modèle créé après le passage ascendant est retourné. S’il y a une amélioration dans la mesure de la validation croisée généralisée, ce terme est retiré du modèle, et le processus est répété pour les termes qui restent. Si à tout moment, le retrait d’un terme n’améliore pas la mesure de la validation croisée généralisée par rapport au modèle créé dans la dernière itération, le processus s’achève.
- Si le choix est « aucun », tous les termes trouvés dans le passage ascendant sont utilisés dans le modèle final.
- Dans la recherche approfondie, toutes les combinaisons des termes trouvés dans l’étape de recherche ascendante sont examinées, mais ceci est coûteux d’un point de vue informatique.
- Dans la suppression ascendante, tous les termes à l’exception de l’intercept sont supprimés, et ensuite le meilleur terme parmi ceux trouvés dans le passage ascendant est déterminé et inclus dans le modèle (en supposant qu’il améliore la mesure de la validation croisée généralisée par rapport à un modèle avec intercept uniquement). Ce processus se poursuit jusqu’à ce qu’aucun terme supplémentaire ne puisse être ajouté pour améliorer la mesure de la validation croisée généralisée.
- Dans le remplacement séquentiel, une solution avec un nombre donné de termes présente un terme remplacé par tous les autres termes restants possibles trouvés dans le passage ascendant et qui n’est pas déjà inclus dans le jeu de termes du passage d’ajustement. Si un nouveau terme est trouvé et améliore la mesure de la validation croisée généralisée par rapport au terme d’origine, le terme d’origine est remplacé par le nouveau terme.
- Le nombre maximal de termes dans le modèle taillé : Si 0 est sélectionné (par défaut), tous les termes qui restent après l’application des autres critères utilisés dans le pass d’élagage sont utilisés dans le modèle final, sinon, seuls les termes les plus importants jusqu’au nombre sélectionné sont conservés dans le modèle final.
Utilisez l’onglet Options graphiques pour définir les contrôles de la sortie graphique. - Taille de la parcelle : Sélectionnez des pouces ou des centimètres pour la taille du graphique.
- Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 ppp) ; 2x (192 PPP) ; ou 3x (288 PPP). Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur. Une résolution élevée produit un fichier de plus grande taille avec une qualité d’impression supérieure.
- Taille de la police de base (points) : Sélectionnez la taille de la police dans le graphique.
Afficher la sortie
Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.
- O ancre : Se compose d’une table du modèle sérialisé avec son nom de modèle.
- Ancre R : Se compose des extraits de rapport générés par l’outil Modèle Spline : un résumé de modèle de base, une parcelle d’importance variable (qui indique l’importance relative des différents champs prédictifs), une parcelle de diagnostic de modèle de base et (éventuellement) les parcelles d’effets.
*https://en.wikipedia.org/wiki/Multivariate_adaptive_regression_splines
** Freidman, Jérôme H.,
« Multivariate Adaptive Regression Splines », Stanford University, août 1990
*** Freidman, Jerome H.,
« Fast MARS », Rapport technique no 102, Département de la statistique, Université Stanford, mai 1993