Outil Modèle Spline

L'outil de modèle spline fournit l'algorithme de régression adaptative (ou mars) multivariée de Friedman. * cette méthode est un modèle d'apprentissage statistique moderne qui: (1) auto-détermine quel sous-ensemble de champs mieux prévoir un champ d'intérêt cible; (2) est capable de capturer des relations hautement non linéaires et des interactions entre les champs; et peut s'adresser automatiquement à un large éventail de problèmes de régression et de classification d'une manière qui peut être transparente pour l'utilisateur (l'utilisateur peut faire aussi peu que spécifier un champ cible et un ensemble de champs Predictor, mais l'outil peut être largement affinée par Advanced utilisateurs).

L’outil est applicable à un grand nombre de problèmes, par exemple, classification, données de comptage et problèmes de régression à cible continue. La méthode utilise une approche en deux étapes pour développer un modèle. Lors de la première étape (connue en tant que passage ascendant, et qui est similaire à l’algorithme de partitionnement récursif utilisé dans l’outil Arbre de décision), on trouve les variables qui importent le plus dans la prédiction de la cible déterminée et les « points de rupture » (connus sous le nom de « nœuds ») appropriés dans les variables. Cependant, contrairement à l’arbre de décision, une ligne entre les nœuds adjacents (appelée un terme) convient mieux plutôt que d’utiliser des sauts discrets comme dans les arbres de décision. Ceci se traduit par la construction d’une fonction linéaire par partie pour chaque variable qui peut étroitement se rapprocher de toute relation entre la cible et les variables prédictives. La seconde étape (connue sous le nom de passage descendant ou passage d’ajustement) élimine certains nœuds dans les variables (en allongeant le segment de ligne dans les termes restants) afin de minimiser le risque de surapprentissage sur l’échantillon d’estimation (c’est-à-dire la capture du bruit de l’échantillon d’estimation en opposition au signal sous-jacent).

Cet outil utilise l’outil R. Allez dans Options > Télécharger les outils prédictifs et connectez-vous à la Portail Téléchargements et licences Alteryx pour installer l’outil R et les packages utilisés par ce dernier. Reportez-vous à la page Outil R. Voir Télécharger et utiliser les outils prédictifs.

Entrée

Flux de données Alteryx qui inclut un champ cible d’intérêt avec un ou plusieurs champs prédicteurs possibles.

Configurer l’outil

Utilisez l' onglet Paramètres requis pour définir les contrôles obligatoires pour le modèle spline.

Nom du modèle: chaque modèle doit être donné un nom afin qu'il puisse être identifié ultérieurement. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Aucun autre caractère spécial n’est autorisé et R est sensible à la casse.
Sélectionnez le champ cible: sélectionnez le champ dans le flux de données que vous souhaitez prédire.
Sélectionnez les champs Predictor: Choisissez les champs du flux de données que vous croyez «provoquer» les modifications de la valeur de la variable cible.
Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l’exécution.
Inclure les parcelles d'effets?: si elle est cochée, les placettes d'effets seront produites qui montrent graphiquement la relation entre la variable Predictor et la cible à des niveaux fixes (la médiane pour les prédicteurs numériques, le premier niveau pour les facteurs) d'un autre prédicteur Fields. Il existe des options qui vous permettent d’afficher uniquement les champs qui ont un effet principal sur la cible, uniquement les effets à interaction bidirectionnelle entre les champs à l’aide d’un tracé perspectif, ou à la fois les principaux effets et les interactions bidirectionnelles.

Utilisez l' onglet personnalisation du modèle (facultatif) pour effectuer des ajustements plus spécifiques au modèle.

Spécifiez le type cible et la famille GLM: cinq types de champs cibles sont pris en charge:
- les cibles continues (p. ex., les cibles numériques où toute valeur unique donnée représente un pourcentage relativement petit du total des instances) ;
- les cibles distribuées Gamma (cibles numériques strictement positives qui représentent un pourcentage élevé de valeurs de réponse relativement faibles, mais un petit pourcentage de valeurs relativement élevées) ;
- les cibles « compteur » (p.ex., les cibles à valeurs entières pour lesquelles la plupart des valeurs uniques représentent un pourcentage relativement élevé du total des instances, par exemple, le nombre de visites chez le médecin qu’une personne compte par an) ;
- les cibles catégorielles binaires (p. ex., les champs cibles de la variété « oui/non ») ;
- les cibles catégorielles multinomiales (p. ex., les champs cibles avec un nombre limité de résultats distincts, comme « A », « B » ou « C »).
Chaque type de champ cible peut avoir une ou plusieurs fonction(s) de distribution possible(s) associée(s) (en lien avec la mesure que l’algorithme tente de minimiser).
- Les cibles continues peuvent avoir soit une distribution explicite ou une distribution gaussienne (ou normale).
- Dans le cas d’une cible distribuée Gamma, il faut choisir la fonction de liaison à utiliser (la relation entre les moyens de distribution et le prédicteur linéaire).
- Les cibles « compteur » (entier) minimisent une fonction de perte sur la base de la distribution de Poisson, et utilisent soit un log (de préférence) ou une fonction de liaison d’identité.
- Les cibles catégorielles binaires peuvent utiliser un logit (également utilisé dans la régression logistique classique), un probit ou une fonction de liaison Logarithme double complémentaire.
- Une réponse catégorielle multinomiale est traitée de manière non standard. Plus spécifiquement, plutôt que d’estimer un vrai modèle multinomial, un jeu de modèles binaires (utilisant une fonction de liaison logit) est estimé. Par exemple, si les réponses possibles sont "a", "b" ou "c", ce qui est estimé est un modèle de: "a" contre tout autre choix, "b" contre tout autre choix, et "c" contre tout autre choix.
Echelle de la variable cible: si la variable cible est une variable continue, et cette option est sélectionnée, elle sera soumise à un z-score (zéro moyen, écart-type d'une) transformation pour aider à la stabilité numérique dans la passe avant (première étape) de l'algorithme.
Le nombre maximal de noeuds ou de déterminer automatiquement (auto): cette option contrôle le nombre de noeuds possibles (fractionnements) dans les champs Predictor dans la passe avant (première étape) de l'algorithme. Si « Auto » est sélectionné, le nombre de nœuds est calculé en fonction du nombre de champs prédicteurs. Le nombre réel de nœuds dans le passage ascendant sera souvent inférieur au maximum autorisé.
Profondeur d'interaction : niveau d'interaction entre les champs prédictifs.

Si deux champs prédicteurs sont en interaction bidirectionnelle, l’effet d’un champ prédicteur sur la cible dépend du niveau du second champ prédicteur.
En cas d’interaction tridirectionnelle, l’effet d’un champ prédicteur sur la cible dépend de la valeur des deux autres champs prédicteurs.
Vous pouvez spécifier des interactions allant jusqu’à 5 directions (profondeur d’interaction de 5). La valeur par défaut de ce paramètre est définie sur 1 (hypothèse implicite d’une absence d’interaction entre les champs prédicteurs). L’augmentation de la profondeur d’interaction peut considérablement accroître le temps d’exécution du modèle.

Pénalité par terme ou noeud: la fonction à optimiser contient un élément de pénalité pour diminuer la possibilité que le modèle final surajuste les données de l'échantillon d'estimation. La valeur par défaut est une valeur de 2 pour un modèle à principaux effets uniquement et 3 si des interactions bidirectionnelles ou multidirectionnelles sont autorisées. Une valeur de -1 signifie l’absence de pénalité pour les nœuds ou les termes, alors qu’une valeur de 0 applique la pénalité par défaut uniquement aux termes.
L'amélioration minimale de r-squared nécessaire pour ajouter un noeud supplémentaire: plus la valeur de ces termes, plus l'amélioration de r-squared doit être pour le modèle afin d'ajouter un noeud.
La distance minimale entre les noeuds: si 0 est sélectionné, la distance minimale autorisée est calculée sur la base d'une formule, une valeur de 1 permet à l'une des valeurs d'une variable prédictive d'être un noeud (qui ne fonctionne bien que si les données ont très peu de bruit) , sinon une valeur numérique comprise entre 0 et 1 doit être fournie, ce qui donne la distance en pourcentage de la plage d'une variable prédictive.
Nouvelle pénalité variable: le terme de pénalité supplémentaire ajouté à la fonction objective pour l'ajout d'une nouvelle variable au modèle. La valeur par défaut est 0 (aucune) et cette valeur peut aller de 0 à 0,5. Tout comme avec la pénalité par nœud ou terme, l’objectif consiste à contrôler le surapprentissage.
Nombre maximal de termes parents considérés à chaque étape de la passe avant: ce terme contrôle le nombre de termes créés dans une passe avant, ce qui peut accélérer l'exécution. Une valeur spéciale de 0 ne place aucune limite sur le terme, alors qu’un numéro supérieur à 0 précise le nombre de termes maximum. La valeur par défaut est 20 termes, les valeurs courantes sont 20, 10 et 5.
Le coefficient de vieillissement rapide mars: Voir la section 3,1 de Friedman (1993) pour une explication de ce paramètre. * * *
Effectuer une analyse de validation croisée: cette option permet une évaluation de la validation croisée pour déterminer si une taille suffisante a été effectuée par rapport à la méthode de validation croisée généralisée utilisée par l'algorithme. Si cette option est sélectionnée, l’utilisateur peut indiquer le nombre d’exécutions de validations croisées distinctes, le nombre de plis dans chaque exécution de validation croisée, si les échantillons de la validation croisée sont stratifiés pour avoir un mélange comparable de réponses pour une cible catégorielle (p. ex. un nombre comparable de réponses « oui » et de « non » pour une variable catégorielle binaire), et la valeur d’amorce aléatoire pour les numéros aléatoires générés pour créer les échantillons.
La méthode d'élagage: les choix sont "élimination rétrograde", "aucun", "recherche exhaustive", "sélection avant", et "remplacement séquentiel".

L’élimination descendante (par défaut) commence par tous les nœuds et termes trouvés lors du passage ascendant, puis élimine d’abord le terme le moins prédictif (en réalisant les ajustements appropriés au niveau des termes affectés restants), elle compare ensuite l’effet sur la mesure de la validation croisée généralisée par rapport au modèle complet. Si la mesure de la validation croisée généralisée n’est pas améliorée en supprimant un terme, le modèle créé après le passage ascendant est retourné. S’il y a une amélioration dans la mesure de la validation croisée généralisée, ce terme est retiré du modèle, et le processus est répété pour les termes qui restent. Si à tout moment, le retrait d’un terme n’améliore pas la mesure de la validation croisée généralisée par rapport au modèle créé dans la dernière itération, le processus s’achève.
Si le choix est « aucun », tous les termes trouvés dans le passage ascendant sont utilisés dans le modèle final.
Dans la recherche approfondie, toutes les combinaisons des termes trouvés dans l’étape de recherche ascendante sont examinées, mais ceci est coûteux d’un point de vue informatique.
Dans la suppression ascendante, tous les termes à l’exception de l’intercept sont supprimés, et ensuite le meilleur terme parmi ceux trouvés dans le passage ascendant est déterminé et inclus dans le modèle (en supposant qu’il améliore la mesure de la validation croisée généralisée par rapport à un modèle avec intercept uniquement). Ce processus se poursuit jusqu’à ce qu’aucun terme supplémentaire ne puisse être ajouté pour améliorer la mesure de la validation croisée généralisée.
Dans le remplacement séquentiel, une solution avec un nombre donné de termes présente un terme remplacé par tous les autres termes restants possibles trouvés dans le passage ascendant et qui n’est pas déjà inclus dans le jeu de termes du passage d’ajustement. Si un nouveau terme est trouvé et améliore la mesure de la validation croisée généralisée par rapport au terme d’origine, le terme d’origine est remplacé par le nouveau terme.

Le nombre maximal de termes dans le modèle taillé: si 0 est sélectionné (la valeur par défaut), alors tous les termes qui restent après les autres critères utilisés dans la passe de taille sont appliqués sont utilisés dans le modèle final, sinon, seuls les termes les plus importants jusqu'au nombre sélectionné sont r etained dans le modèle final.

Utilisez l' onglet options graphiques pour définir les commandes de la sortie graphique.

Tailledu tracé: sélectionnez pouces ou centimètres pour la taille du graphique.
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 ppp) ; 2x (192 PPP) ; ou 3x (288 PPP). Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur. Une résolution élevée produit un fichier de plus grande taille avec une qualité d’impression supérieure.
Taille de police de base (points): sélectionnez la taille de la police dans le graphique.

Afficher la sortie

Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.

O ancre: se compose d'une table du modèle sérialisé avec son nom de modèle.
R ancre: se compose des extraits de rapport générés par l'outil de modèle spline: un résumé du modèle de base, un tracé d'importance variable (qui indique l'importance relative des différents champs prédictifs), un tracé de diagnostic de base du modèle, et (facultativement) le Parcelles d'effets.

*https://en.wikipedia.org/wiki/Multivariate_adaptive_regression_splines

* *Freidman, Jerome H., «splines adaptatives de régression multivariées», Université de Stanford, 1990 août

Freidman, Jerome H., "Fast mars", rapport technique n ° 102, département of Statistics, Stanford University, mai 1993