Outil Composants principaux

L’outil Composants principaux permet de réduire les dimensions (le nombre de champs numériques) dans une base de données. Pour cela, il transforme le jeu de champs d’origine en un ensemble plus petit tenant compte de la plupart des variances (c’est-à-dire des informations) dans les données. Les nouveaux champs sont appelés des « facteurs » ou des « composants principaux ».

Les composants principaux sont extraits de manière séquentielle, le premier composant principal tenant compte de la plupart des variances dans les données. Intuitivement, le premier composant principal est un vecteur qui pointe dans la direction dans laquelle les données sont les plus «étalées». Le deuxième composant principal est configuré de façon similaire, mais avec la contrainte supplémentaire qu'il doit être non corrélé avec le premier. Chaque composant principal suivant capture un pourcentage de plus en plus faible d’écart dans les données, et n’est pas corrélé avec les composants principaux déjà extraits. Il peut y avoir autant de composants principaux que de champs numériques dans les données. Toutefois, il est généralement possible de capturer l’écart dans les données à l’aide des 2-3 premiers composants principaux, plutôt qu’avec l’ensemble complet de champs numériques d’origine. Un composant principal est constitué d’une combinaison linéaire pondérée des champs numériques d’origine. Ensemble, ils peuvent former un nouveau système de coordonnées où aucune dimension n’est corrélée avec les autres.

Les composants principaux peuvent être utilisés en lieu et place des champs d’origine dans des modèles prédictifs, afin d’éviter les problèmes liés à l’utilisation de variables fortement corrélées. En contrepartie, l’interprétation des modèles est plus compliquée. En outre, la méthode peut servir à déterminer les groupes de champs susceptibles de présenter une forte corrélation conjointe, ainsi qu’à prendre des décisions quant aux champs à exclure d’un modèle prédictif. Enfin, la fonction de « réduction » d’un nombre important de champs en un faible nombre de composants principaux constitue souvent un avantage en ce qui concerne la visualisation des relations dans les données.

Cet outil utilise l’outil R. Allez dans Options > Télécharger les outils prédictifs et connectez-vous à la Portail Téléchargements et licences Alteryx pour installer l’outil R et les packages utilisés par ce dernier. Reportez-vous à la page Outil R. Voir Télécharger et utiliser les outils prédictifs.

Configurer l’outil

Utilisez l' onglet Configuration pour définir les contrôles des composants principaux et des biparcelles connexes.

  • Champs (sélectionnez deux ou plusieurs): sélectionnez les champs numériques à utiliser dans l'analyse des composants principaux.
  • Dimensionner chaque champ pour avoir la variance de l'unité? : Sélectionnez cette option pour normaliser les données et utiliser la matrice d'autocorrélation au lieu de la matrice autocovariance comme base d'analyse.
  • Le plus grand nombre de composants principaux à inclure dans les biparcelles: un biplot est un moyen de visualiser une solution de composants principaux, deux composants à la fois. Cette option définit la limite supérieure des composants principaux à utiliser dans l’analyse. Par exemple, si ce paramètre a la valeur « 3 », les biplots incluent les premier et deuxième, premier et troisième et deuxième et troisième composants principaux dans trois figures distinctes.
  • Ajouter les composants principaux au flux de données: sélectionnez cette option pour produire les données d'origine ainsi que des champs supplémentaires pour les composants principaux ajoutés. Les champs ajoutés sont intitulés PC1, PC2, etc. Définissez le nombre de composants principaux à ajouter.

Utilisez l' onglet options graphiques pour définir les commandes de la sortie graphique.

  • Tailledu tracé: sélectionnez pouces ou centimètres pour la taille du graphique.
  • Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 ppp) ; 2x (192 PPP) ; ou 3x (288 PPP). Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur. Une résolution élevée produit un fichier de plus grande taille avec une qualité d’impression supérieure.

  • Taille de police de base (points): sélectionnez la taille de la police dans le graphique.

Afficher la sortie

Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.

  • O ancre: se compose du flux de données d'entrée avec les composants principaux ajoutés.
  • R ancre: se compose des extraits de rapport générés par l'outil composant principal: un résumé statistique, des parcelles de base et des biparcelles.

*https://en.wikipedia.org/wiki/Principal_component_analysis