Outil Corrélation de Pearson
L’outil Corrélation de Pearson utilise le coefficient de corrélation produit-moment de Pearson (parfois appelé « PMCC », et généralement désigné par r) pour mesurer la corrélation (dépendance linéaire) entre deux variables X et Y, fournissant une valeur comprise entre +1 et −1 inclus. Il est couramment utilisé dans le domaine des sciences pour mesurer la force de la dépendance linéaire entre deux variables.*
La corrélation (souvent mesurée sous la forme du coefficient de corrélation ρ) indique la force et la direction d’une relation linéaire entre deux variables aléatoires. Les valeurs de corrélation vont de –1.00 (corrélation négative parfaite) à +1.00 (corrélation positive parfaite). La valeur zéro indique l’absence de corrélation.
Le coefficient de Pearson est obtenu en divisant la covariance des deux variables par le produit de leur écart-type.*
Configurer l’outil
- Générer une corrélation pour les variables sélectionnées: sélectionnez deux champs ou plus dans le flux d'entrée pour exécuter la corrélation. Les champs doivent être numériques.
- Spécifiez le type de calcul à exécuter. Plusieurs choix sont possibles :
- Calculerla corrélation: mesure la corrélation Pearson.
- Calculer la covariance: mesure la covariance entre différents champs. Le type de covariance est « Covariance d’échantillon », qui correspond à la formule statistique Excel « COVARIANCES ».
Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l’exécution.
L’outil Coefficient de corrélation de Pearson attend des valeurs non-Null. S'il y a des valeurs NULL dans les données, il est judicieux d'utiliser le Outil Imputation pour remplacer les valeurs NULL en premier.
*http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient