Outil Régression Gamma

L’outil Régression Gamma relie une variable d’intérêt strictement positive et distribuée selon une loi Gamma (variable cible) à une ou plusieurs variables (prédictives) qui sont censées avoir une influence sur la variable cible.

Dans plusieurs applications, les valeurs de la variable cible sont toujours strictement positives (elles ne sont jamais égales à zéro ni négatives), mais elles ont tendance à se regrouper dans la plage inférieure des valeurs observées. Toutefois, dans une petite minorité de cas, elles correspondent à des valeurs élevées. Les variables cibles de cette nature représentent un processus de génération de données qui n’est pas cohérent avec les hypothèses de normalité sous-tendant le modèle de régression linéaire traditionnel. Toutefois, les valeurs sont toujours positives et ne sont pas toujours des entiers. Par conséquent, elles ne respectent pas un processus de distribution de Poisson ou de distribution binomiale négative. Ils sont compatibles avec un processus basé sur une distribution gamma, et peuvent être estimés à l'aide de méthodes semblables à la régression linéaire, via le cadre de modèle linéaire généralisé.

Avec cet outil, si l’entrée provient d’un flux de données Alteryx standard, la fonction glm R open source permet d’estimer le modèle. Si l'entrée provient soit d'un Outil Entrée XDF ou Outil Sortie XDF, la fonction rxGlm de l'échelle Revo est utilisée pour l'estimation du modèle. L'avantage d'utiliser la fonction de l'échelle Revo est qu'il permet d'analyser des datasets beaucoup plus grands (hors de mémoire), mais au détriment d'une surcharge supplémentaire pour créer un fichier XDF et avec l'incapacité de créer une partie du modèle de sortie de diagnostic qui est disponible avec les fonctions Open source R.

Cet outil utilise l’outil R. Allez dans Options > Télécharger les outils prédictifs et connectez-vous à la Portail Téléchargements et licences Alteryx pour installer l’outil R et les packages utilisés par ce dernier. Reportez-vous à la page Outil R. Voir Télécharger et utiliser les outils prédictifs.

Connecter une entrée

Flux de données Alteryx ou flux de métadonnées XDF qui inclut un champ cible d’intérêt avec un ou plusieurs champs prédicteurs possibles.

Configurer l’outil

Utilisez l' onglet Configuration pour définir les contrôles de votre régression gamma.

  • Nomdu modèle: chaque modèle doit être donné un nom afin qu'il puisse être identifié ultérieurement. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Aucun autre caractère spécial n’est autorisé et R est sensible à la casse.
  • Sélectionnez la variable cible: sélectionnez le champ dans le flux de données que vous souhaitez prédire.
  • Sélectionnez les variables prédictives: choisissez les champs du flux de données que vous croyez «provoquer» les modifications de la valeur de la variable cible.
  • Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l’exécution.

  • Typede modèle: une boîte déroulante avec les options de log, inverse et Identity. Cette option détermine la fonction de liaison à utiliser avec la famille Gamma pour estimer le modèle linéaire généralisé.
  • Utiliser des poids d'échantillonnage dans l'estimation du modèle? (facultatif)... : Cliquez sur la case à cocher, puis sélectionnez un champ de poids dans le flux de données pour estimer un modèle qui utilise le poids d'échantillonnage.

Utilisez l' onglet options graphiques pour définir les commandes de la sortie graphique.

  • Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 ppp) ; 2x (192 PPP) ; ou 3x (288 PPP). Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur. Une résolution élevée produit un fichier de plus grande taille avec une qualité d’impression supérieure.

Afficher la sortie

  • O ancre: se compose d'une table du modèle sérialisé avec son nom de modèle.
  • R ancre: comprend les extraits de rapport générés par l'outil de régression gamma: un résumé statistique, une analyse de type II de la déviance (Anod) et des parcelles diagnostiques de base. La table Analyse de déviance de type II et les tracés des diagnostics de base ne sont pas produits lorsque l’entrée du modèle provient d’un outil Sortie XDF ou Entrée XDF.