Importance Weights Tool Icon

Outil Pondération De L’importance

Version:
2022.3
Last modified: September 25, 2020

L’outil Pondération de l’importance fournit des méthodes de sélection d’un jeu de variables à utiliser dans un modèle prédictif en fonction de la puissance de la relation entre chaque prédicteur possible et la variable cible.

Le jeu sélectionné au final peut être basé sur l’emploi des N prédicteurs ayant la plus forte relation avec la cible ou sur la sélection d’un seuil de pondération de l’importance. Dans ce cas, seules les variables dépassant le seuil sont incluses dans le modèle.

Cette approche n’est pas dénuée d’inconvénients. Par exemple, elle ne tient compte de la puissance de la relation entre le prédicteur possible et la cible que de manière isolée, sans voir les interactions et corrélations éventuelles entre les prédicteurs. En dépit de cette limite, cette méthode de filtrage des variables est couramment utilisée dans la pratique.

Il existe un certain nombre de mesures de poids d'importance différentes, et l'applicabilité d'une méthode particulière dépend généralement à la fois du type de cible et du prédicteur (numérique ou catégorique). L’inconvénient de cette situation, c’est que les mesures utilisées pour déterminer l’importance relative des prédicteurs possibles sont différentes pour les variables numériques et catégorielles. L'exception est la méthode Relief, mais ses performances ne sont pas aussi robustes que d'autres méthodes spécifiques à un type de cible particulier et à une combinaison de type prédicteur.

La plupart des mesures sont fournies par le paquet FSelector R. Ainsi, pour utiliser cette macro, l’ordinateur sur lequel Alteryx est installé doit disposer d’un environnement d’exécution Java 7.

Cet outil n'est pas installé automatiquement avec Alteryx Designer ou les outils R. Pour utiliser cet outil, téléchargez-le à partir de la Gallery Alteryx Analytics.

Connecter une entrée

Flux de données Alteryx contenant la variable cible souhaitée et un jeu de variables prédictives potentielles qui servent à l’estimation d’un modèle prédictif.

Configuration des outils

  • Cible continue : Sélectionnez cette option si la variable cible que vous souhaitez prédire est une variable numérique. Lorsque vous sélectionnez cette option, vous devez choisir le champ de variable cible dans les données et décider si vous examinerez les variables continues (numériques) ou catégorielles (variables de chaîne avec étiquettes de catégorie). Ensuite, vous devez choisir le jeu de prédicteurs (du type sélectionné) à examiner et au moins une mesure de comparaison. Pour la cible continue et les prédicteurs continus, les mesures disponibles sont :
    • La corrélation de Pearson.
    • La corrélation rang-ordre de Spearman.
    • Relief, qui fournit l’algorithme RRELIEFF. L’utilisation peut sélectionner à la fois le nombre de voisins proches ( nombre du voisin ) et la taillede l’échantillon( taille del’échantillon) utilisé pour calculer la mesure RRELIEFF.
    • Les mesures de pondération de l’importance disponibles pour une cible continue et des prédicteurs catégoriels sont :
      • La corrélation (Pearson) de la moyenne conditionnelle. Cette mesure calcule la moyenne de la variable cible pour chaque niveau (catégorie) des variables catégorielles, puis elle calcule la corrélation de Pearson entre les valeurs réelles et moyennes.
      • Relief, qui utilise l’algorithme RRELIEFF. L’utilisation peut sélectionner à la fois le nombre de voisins proches ( nombre du voisin ) et la taillede l’échantillon( taille del’échantillon) utilisé pour calculer la mesure RRELIEFF.
    • Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l’exécution.
  • Cible catégorique : Sélectionnez cette option si la variable cible que vous souhaitez prédire est une variable catégorique. Lorsque vous sélectionnez cette option, vous devez choisir le champ de variable cible dans les données et décider si vous examinerez les variables continues (numériques) ou catégorielles (variables de chaîne avec étiquettes de catégorie). Ensuite, vous devez choisir le jeu de prédicteurs (du type sélectionné) à examiner et au moins une mesure de comparaison. Pour la cible continue et les prédicteurs continus, les mesures disponibles sont :
    • Gain d’information basé sur l’entropie
    • Ratio de gain d’entropie
    • Incertitude symétrique de l’entropie
    • Relief, qui utilise l’algorithme RRELIEFF. L’utilisation peut sélectionner à la fois le nombre de voisins proches ( nombre du voisin ) et la taillede l’échantillon( taille del’échantillon) utilisé pour calculer la mesure RRELIEFF.
    • Les mesures de pondération de l’importance disponibles pour une cible catégorielle et des prédicteurs catégoriels sont :
      • Cramer’s V (chi-carré)
      • Relief, qui utilise l’algorithme RRELIEFF. L’utilisation peut sélectionner à la fois le nombre de voisins proches ( nombre du voisin ) et la taillede l’échantillon( taille del’échantillon) utilisé pour calculer la mesure RRELIEFF.

Afficher la sortie

  • Ancre D : Se compose d’une table qui fournit la valeur de poids d’importance sélectionnée pour chaque prédicteur potentiel.
  • Ancre R : Se compose d’extraits de rapport qui indiquent le champ cible (et son type) et le type des champs prédictifs potentiels ainsi que le tableau de la valeur de poids d’importance sélectionnée pour chaque prédicteur potentiel.
Cette page vous a-t-elle été utile ?

Vous rencontrez des problèmes avec votre produit Alteryx ? Visitez la communauté Alteryx ou contactez le  support. Vous n'arrivez pas à soumettre ce formulaire ? Envoyez-nous un e-mail.