Outil Modèle Spline

Exigences relatives au rôle d'utilisateur

Rôle d'utilisateur*	Accès aux outils/fonctionnalités
Utilisateur complet	✓
Utilisateur de base	X

*S'applique aux clients Alteryx OneÉditions Professional et Enterprise sur les versions 2025.1 et ultérieures de Designer.

L’outil Modèle Spline fournit l’algorithme de régression multivariée par spline adaptative (ou fonctions MARS) de Friedman.* Cette méthode est un modèle d'apprentissage statistique moderne qui : (1) identifie automatiquement quel sous-ensemble de champs prédit le mieux un champ d'intérêt cible ; (2) est capable de capturer des relations extrêmement non linéaires et des interactions entre les champs ; et peut répondre automatiquement à une grande diversité de problèmes de régression et de classification de manière transparente pour l'utilisateur (l'utilisateur n'a plus qu'à préciser un champ cible et un jeu de champs prédicteurs, mais l'outil peut être extrêmement affiné par des utilisateurs chevronnés).

L’outil est applicable à un grand nombre de problèmes, par exemple, classification, données de comptage et problèmes de régression à cible continue. La méthode utilise une approche en deux étapes pour développer un modèle. Lors de la première étape (connue en tant que passage ascendant, et qui est similaire à l’algorithme de partitionnement récursif utilisé dans l’outil Arbre de décision), on trouve les variables qui importent le plus dans la prédiction de la cible déterminée et les « points de rupture » (connus sous le nom de « nœuds ») appropriés dans les variables. Cependant, contrairement à l’arbre de décision, une ligne entre les nœuds adjacents (appelée un terme) convient mieux plutôt que d’utiliser des sauts discrets comme dans les arbres de décision. Ceci se traduit par la construction d'une fonction linéaire par partie pour chaque variable qui peut étroitement se rapprocher de toute relation entre la cible et les variables prédictives. La seconde étape (connue sous le nom de passage descendant ou passage d’ajustement) élimine certains nœuds dans les variables (en allongeant le segment de ligne dans les termes restants) afin de minimiser le risque de surapprentissage sur l’échantillon d’estimation (c’est-à-dire la capture du bruit de l’échantillon d’estimation en opposition au signal sous-jacent).

Important

Cet outil n'est pas installé automatiquement avec Designer. Pour l'utiliser, téléchargez et installez les outils prédictifs Alteryx pour votre version de Designer. En fonction de votre type de compte Alteryx, vous disposez de deux options de téléchargement :

Télécharger depuis Alteryx One
Télécharger depuis le portail des licences et téléchargements Alteryx.

Pour plus d'informations, consultez la page Télécharger et utiliser les outils prédictifs

Exemple d'outil unique

Cet outil comporte un exemple d'outil unique. Accédez à Exemples de workflows pour savoir comment accéder à cet exemple et à de nombreux autres exemples directement dans Designer.

Entrée

Un flux de données Alteryx qui inclut un champ cible d'intérêt, ainsi qu'un ou plusieurs champs prédicteurs possibles.

Configuration de l'outil

Utilisez l'onglet Paramètres obligatoires pour définir les contrôles obligatoires du modèle Spline.

Nom de modèle : vous devez attribuer un nom à chaque modèle afin de pouvoir les identifier ultérieurement. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Aucun autre caractère spécial n'est autorisé et R est sensible à la casse.
Sélectionnez le champ cible : sélectionnez le champ du flux de données à prédire.
Sélectionnez les champs prédicteurs : sélectionnez les champs du flux de données dont vous pensez qu'ils « provoquent » des changements de valeur de la variable cible. Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l'exécution.
Inclure les tracés d'effets ? : si cette case est cochée, les tracés d'effets seront produits et illustreront de manière graphique la relation entre la variable prédictive et la cible à des niveaux fixés (la médiane pour les prédicteurs numériques, le premier niveau pour les facteurs) pour les autres champs prédicteurs. Il existe des options qui vous permettent d’afficher uniquement les champs qui ont un effet principal sur la cible, uniquement les effets à interaction bidirectionnelle entre les champs à l’aide d’un tracé perspectif, ou à la fois les principaux effets et les interactions bidirectionnelles.

L'onglet Personnalisation du modèle (facultatif) permet d'ajuster le modèle de manière plus spécifique.

Préciser le type de cible et la famille de GLM : cinq types de champs cibles sont pris en charge :
- les cibles continues (par exemple, les cibles numériques où toute valeur unique donnée représente un pourcentage relativement petit du total des instances) ;
- les cibles distribuées Gamma (cibles numériques strictement positives qui représentent un pourcentage élevé de valeurs de réponse relativement faibles, mais un petit pourcentage de valeurs relativement élevées) ;
- les cibles « compteur » (par exemple, les cibles à valeurs entières pour lesquelles la plupart des valeurs uniques représentent un pourcentage relativement élevé du total des instances, par exemple, le nombre de visites chez le médecin qu'une personne compte par an) ;
- les cibles catégorielles binaires (par exemple, les champs cibles de la variété « oui/non ») ;
- les cibles catégorielles multinomiales (par exemple, les champs cibles avec un nombre limité de résultats distincts, comme « A », « B » ou « C »).
Chaque type de champ cible peut avoir une ou plusieurs fonctions de distribution possibles associées (en lien avec la mesure que l'algorithme tente de minimiser).
- Les cibles continues peuvent avoir soit une distribution explicite soit une distribution gaussienne (en d'autres termes, normale).
- Dans le cas d’une cible distribuée Gamma, il faut choisir la fonction de liaison à utiliser (la relation entre les moyens de distribution et le prédicteur linéaire).
- Les cibles « compteur » (entier) minimisent une fonction de perte sur la base de la distribution de Poisson et utilisent soit un log (de préférence) soit une fonction de liaison d'identité.
- Les cibles catégorielles binaires peuvent utiliser un logit (également utilisé dans la régression logistique classique), un probit ou une fonction de liaison logarithme double complémentaire.
- Une réponse catégorielle multinomiale est traitée de manière non standard. Plus spécifiquement, plutôt que d’estimer un vrai modèle multinomial, un jeu de modèles binaires (utilisant une fonction de liaison logit) est estimé. Par exemple, si les réponses possibles sont « A », « B » ou « C », ce qui est estimé est un modèle de : « A » contre tout autre choix, « B » contre tout autre choix ou « C » contre tout autre choix.
Mettre à l'échelle la variable cible : si la variable cible est une variable continue et que cette option est sélectionnée, elle sera sujette à une transformation de score z (moyenne zéro, écart-type de un) pour faciliter la stabilité numérique dans le passage ascendant (première étape) de l'algorithme.
Définir manuellement le nombre maximum de nœuds (facultatif) : cette option contrôle le nombre de nœuds possibles (ruptures) dans les champs prédicteurs dans le passage ascendant (première étape) de l'algorithme. Si cette option n'est pas sélectionnée, le nombre de nœuds est calculé en fonction du nombre de champs prédicteurs. Le nombre réel de nœuds dans le passage ascendant sera souvent inférieur au maximum autorisé.
Profondeur d'interaction : niveau d'interaction entre les champs prédictifs.
- Si 2 champs prédicteurs sont en interaction bidirectionnelle, l'effet d'un champ prédicteur sur la cible dépend du niveau du second champ prédicteur.
- En cas d'interaction tridirectionnelle, l'effet d'un champ prédicteur sur la cible dépend de la valeur des deux autres champs prédicteurs.
- Vous pouvez spécifier des interactions allant jusqu’à 5 directions (profondeur d’interaction de 5). La valeur par défaut de ce paramètre est définie sur 1 (hypothèse implicite d’une absence d’interaction entre les champs prédicteurs). L’augmentation de la profondeur d’interaction peut considérablement accroître le temps d’exécution du modèle.
Pénalité définie manuellement par terme ou nœud : la fonction à optimiser contient un composant de pénalité pour réduire la possibilité de surapprentissage du modèle final sur les données d'échantillonnage d'estimation. La valeur par défaut est une valeur de 2 pour un modèle à principaux effets uniquement et 3 si des interactions bidirectionnelles ou multidirectionnelles sont autorisées. Une valeur de -1 signifie l'absence de pénalité pour les nœuds ou les termes, alors qu'une valeur de 0 applique la pénalité par défaut uniquement aux termes.
L'amélioration minimale du R-carré nécessaire pour ajouter un nœud supplémentaire : plus la valeur de ces termes est élevée, plus l'amélioration à apporter dans R-carré doit être importante pour le modèle afin d'ajouter un nœud.
La distance minimum entre les nœuds : si 0 est sélectionné, alors la distance minimale autorisée est calculée sur la base d'une formule, une valeur de 1 autorise n'importe quelle valeur d'une variable prédictive à être un nœud (ceci fonctionne bien uniquement si les données présentent très peu de bruit), sinon une valeur numérique entre 0 et 1 doit être renseignée pour donner la distance sous forme de pourcentage de la plage d'une variable prédictive.
Nouvelle pénalité de variable : terme de pénalité supplémentaire ajouté à la fonction objectif pour l'ajout d'une nouvelle variable au modèle. La valeur par défaut est 0 (aucune) et cette valeur peut aller de 0 à 0,5. Tout comme avec la pénalité par nœud ou terme, l’objectif consiste à contrôler le surapprentissage.
Le nombre maximum de termes parent considérés à chaque étape du passage ascendant : ce terme contrôle le nombre de termes qui sont créés dans un passage ascendant, ce qui peut accélérer l'exécution. Une valeur spéciale de 0 ne place aucune limite sur le terme, alors qu’un numéro supérieur à 0 précise le nombre de termes maximum. La valeur par défaut est 20 termes, les valeurs courantes sont 20, 10 et 5.
Le coefficient de vieillissement fast MARS : voir Section 3.1 de Friedman (1993) pour une explication de ce paramètre.***
Exécuter une analyse de validation croisée : cette option permet une évaluation par validation croisée afin de voir si un ajustement suffisant a été fait par rapport à la méthode de validation croisée généralisée utilisée par l'algorithme. Si cette option est sélectionnée, l'utilisateur peut indiquer le nombre d'exécutions de validations croisées distinctes, le nombre de plis dans chaque exécution de validation croisée, si les échantillons de la validation croisée sont stratifiés pour avoir un mélange comparable de réponses pour une cible catégorielle (par exemple, un nombre comparable de réponses « oui » et « non » pour une variable catégorielle binaire) et la valeur d'amorce aléatoire pour les numéros aléatoires générés pour créer les échantillons.
La méthode d'ajustement : les choix sont « Élimination descendante », « Aucun », « Recherche approfondie », « Sélection ascendante » et « Remplacement séquentiel ».
- L’élimination descendante (par défaut) commence par tous les nœuds et termes trouvés lors du passage ascendant, puis élimine d’abord le terme le moins prédictif (en réalisant les ajustements appropriés au niveau des termes affectés restants), elle compare ensuite l’effet sur la mesure de la validation croisée généralisée par rapport au modèle complet. Si la mesure de la validation croisée généralisée n’est pas améliorée en supprimant un terme, le modèle créé après le passage ascendant est retourné. S’il y a une amélioration dans la mesure de la validation croisée généralisée, ce terme est retiré du modèle, et le processus est répété pour les termes qui restent. Si à tout moment, le retrait d’un terme n’améliore pas la mesure de la validation croisée généralisée par rapport au modèle créé dans la dernière itération, le processus s’achève.
- Si le choix est « aucun », tous les termes trouvés dans le passage ascendant sont utilisés dans le modèle final.
- Dans une recherche approfondie, toutes les combinaisons des termes trouvés dans l'étape de recherche ascendante sont examinées, mais ceci est coûteux d'un point de vue informatique.
- Dans la suppression ascendante, tous les termes à l'exception de l'intercept sont supprimés. Ensuite, le meilleur terme parmi ceux trouvés dans le passage ascendant est déterminé et inclus dans le modèle (en supposant qu'il améliore la mesure de la validation croisée généralisée par rapport à un modèle avec intercept uniquement). Ce processus se poursuit jusqu’à ce qu’aucun terme supplémentaire ne puisse être ajouté pour améliorer la mesure de la validation croisée généralisée.
- Dans le remplacement séquentiel, une solution avec un nombre donné de termes présente un terme remplacé par tous les autres termes restants possibles trouvés dans le passage ascendant et qui n’est pas déjà inclus dans le jeu de termes du passage d’ajustement. Si un nouveau terme est trouvé et améliore la mesure de la validation croisée généralisée par rapport au terme d’origine, le terme d’origine est remplacé par le nouveau terme.
Le nombre maximum de termes du modèle épuré : si 0 est sélectionné (valeur par défaut), alors tous les termes qui restent après les autres critères utilisés dans le passage d'ajustement sont appliqués et utilisés dans le modèle final, sinon, seuls les termes les plus importants jusqu'au nombre sélectionné sont retenus dans le modèle final.

Dans l'onglet Options des graphiques, définissez les contrôles de la sortie graphique :

Taille du tracé : sélectionnez « pouces » ou « centimètres » pour indiquer la taille du graphique.
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 ppp), 2x (192 ppp) ou 3x (288 ppp).
- Une résolution basse produit un fichier de plus petite taille adapté à la visualisation sur un moniteur.
- Une résolution élevée produit un fichier de plus grande taille avec une qualité d'impression supérieure.
Taille de la police de base (points) : sélectionnez la taille de la police dans le graphique.

Visualisation de la sortie

Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.

Ancrage O : table du modèle sérialisé avec son nom de modèle.
Ancrage R : se compose des snippets de rapports générés par l'outil Modèle Spline : un résumé du modèle de base, un tracé d'importance des variables (qui indique l'importance relative des différents champs prédicteurs), un tracé du diagnostic du modèle de base et les tracés des effets (facultatif).

_{*https://fr.wikipedia.org/wiki/Régression_multivariée_par_spline_adaptative}

_{**Freidman, Jerome H., « Multivariate Adaptive Regression Splines », Stanford University, Août 1990}

_{***Freidman, Jerome H., « Fast MARS », Technical Report No. 102, Department of Statistics, Stanford University, Mai 1993}

Dans cette section:

Outil Modèle Spline

Entrée

Configuration de l'outil

Visualisation de la sortie

Résultats de la recherche