Outil Pondération de l’importance
L’outil Pondération de l’importance fournit des méthodes de sélection d’un jeu de variables à utiliser dans un modèle prédictif en fonction de la puissance de la relation entre chaque prédicteur possible et la variable cible.
L'ensemble final sélectionné peut être basé sur la prise des prédicteurs de N les plus fortement liés à la cible, ou en sélectionnant un niveau de poids d'importance de coupure, et seules les variables qui dépassent le point de coupure sont incluses dans un modèle.
Cette approche n’est pas dénuée d’inconvénients. Par exemple, elle ne tient compte de la puissance de la relation entre le prédicteur possible et la cible que de manière isolée, sans voir les interactions et corrélations éventuelles entre les prédicteurs. En dépit de cette limite, cette méthode de filtrage des variables est couramment utilisée dans la pratique.
Il existe plusieurs mesures de pondération de l’importance, et l’applicabilité de chaque méthode dépend généralement du type de cible et du prédicteur (numérique ou catégoriel). L’inconvénient de cette situation, c’est que les mesures utilisées pour déterminer l’importance relative des prédicteurs possibles sont différentes pour les variables numériques et catégorielles. La méthode Relief fait exception, mais ses performances ne sont pas aussi fiables que celles des autres méthodes spécifiques d’une combinaison particulière d’un type de cible et d’un type de prédicteur.
La plupart des mesures sont fournies par le paquet FSelector R. Ainsi, pour utiliser cette macro, l’ordinateur sur lequel Alteryx est installé doit disposer d’un environnement d’exécution Java 7.
Outil Gallery
Cet outil n'est pas installé automatiquement avec Alteryx Designer ou les outils R. Pour utiliser cet outil, téléchargez-le à partir de la Gallery Alteryx Analytics.
Connecter une entrée
Flux de données Alteryx contenant la variable cible souhaitée et un jeu de variables prédictives potentielles qui servent à l’estimation d’un modèle prédictif.
Configurer l’outil
- Cible continue: Sélectionnez cette option si la variable cible que vous souhaitez prédire est une variable numérique. Lorsque vous sélectionnez cette option, vous devez choisir le champ de variable cible dans les données et décider si vous examinerez les variables continues (numériques) ou catégorielles (variables de chaîne avec étiquettes de catégorie). Ensuite, vous devez choisir le jeu de prédicteurs (du type sélectionné) à examiner et au moins une mesure de comparaison. Pour la cible continue et les prédicteurs continus, les mesures disponibles sont :
- La corrélation de Pearson.
- La corrélation rang-ordre de Spearman.
- Relief, qui fournit l' algorithme RRELIEFF . L'utilisation peut sélectionner le nombre de voisins proches (Count du voisin) et la taille de l'échantillon (taille de l'échantillon) utilisée pour calculer la mesure RRELIEFF.
- Corrélation moyenne conditionnelle (Pearson). Cette mesure calcule la moyenne de la variable cible pour chaque niveau (catégorie) des variables catégorielles, puis elle calcule la corrélation de Pearson entre les valeurs réelles et moyennes.
- Relief, qui utilise l'algorithme RRELIEFF. L'utilisation peut sélectionner le nombre de voisins proches (Count du voisin) et la taille de l'échantillon (taille de l'échantillon) utilisée pour calculer la mesure RRELIEFF.
- Cible catégorique: Sélectionnez cette option si la variable cible que vous souhaitez prédire est une variable catégorique. Lorsque vous sélectionnez cette option, vous devez choisir le champ de variable cible dans les données et décider si vous examinerez les variables continues (numériques) ou catégorielles (variables de chaîne avec étiquettes de catégorie). Ensuite, vous devez choisir le jeu de prédicteurs (du type sélectionné) à examiner et au moins une mesure de comparaison. Pour la cible continue et les prédicteurs continus, les mesures disponibles sont :
- Gain d’information basé sur l’entropie
- Ratio de gain d’entropie
- Incertitude symétrique de l’entropie
- Relief, qui utilise l’algorithme RRELIEFF. L'utilisation peut sélectionner le nombre de voisins proches (Count du voisin) et la taille de l'échantillon (taille de l'échantillon) utilisée pour calculer la mesure RRELIEFF.
- Cramer V (chi-squared)
- Relief, qui utilise l’algorithme RRELIEFF. L'utilisation peut sélectionner le nombre de voisins proches (Count du voisin) et la taille de l'échantillon (taille de l'échantillon) utilisée pour calculer la mesure RRELIEFF.
Les mesures de pondération de l’importance disponibles pour une cible continue et des prédicteurs catégoriels sont :
Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l’exécution.
Les mesures de pondération de l’importance disponibles pour une cible catégorielle et des prédicteurs catégoriels sont :
Afficher la sortie
- D ancre: se compose d'un tableau qui fournit la valeur de poids de l'importance sélectionnée pour chaque prédicteur potentiel.
- R ancre: se compose d'extraits de rapport qui indiquent le champ cible (et son type) et le type des champs de prédiction potentiels ainsi que la table de la valeur de poids d'importance sélectionnée pour chaque prédicteur potentiel.