Outil Analyse d’association

L’outil Analyse d’association permet d’identifier les champs d’une base de données qui possèdent une association bivariée entre eux. L’évaluation peut être basée sur les coefficients de corrélation produit-moment de Pearson (« régulier »)*, sur les coefficients de corrélation rang-ordre de Spearman** ou sur les statistiques D d’Hoeffding*** (un test non paramétrique capable de trouver des relations non monotones telles que les formes en U inversées). En outre, le caractère statistiquement significatif de chaque mesure d’association est déterminé.

L’outil fournit toujours l’ensemble complet de relations. Il peut même assurer une analyse approfondie d’un champ cible d’intérêt et de sa relation avec d’autres variables numériques. Le champ cible d’intérêt peut être soit une variable numérique, soit une variable catégorielle binaire. Si une variable catégorielle binaire est utilisée comme champ cible, elle est convertie en champ numérique 0-1, la valeur 1 étant imputée lorsque le champ possède un niveau correspondant à un niveau cible.

Cet outil utilise l’outil R. Allez dans Options > Télécharger les outils prédictifs et connectez-vous à la Portail Téléchargements et licences Alteryx pour installer l’outil R et les packages utilisés par ce dernier. Reportez-vous à la page Outil R. Voir Télécharger et utiliser les outils prédictifs.

Configurer l’outil

  1. Cibler un champ pour une analyse plus détaillée: cela vous permet d'exécuter une analyse plus ciblée d'un domaine d'intérêt et d'autres champs dans les données. Cette fonction est particulièrement utile lorsque l’analyse a pour but de déterminer le jeu de champs à utiliser dans un modèle prédictif ultérieur. Si cette option est sélectionnée, vous devez fournir le nom du champ cible, qui peut être soit numérique ou binaire catégorique. Si le champ est binaire catégorique, sélectionnez la valeur de ce champ qui sera re codé comme un, avec l'autre valeur codée comme zéro. Si le champ indiqué est catégoriel et s’il contient plus de 2 valeurs différentes, une erreur est générée.
  2. Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l’exécution.

  3. Champs (sélectionnez deux ou plusieurs): sélectionnez les champs de l'analyse d'association. Si vous avez sélectionné un champ « cible », il est automatiquement inclus dans cette liste. Les champs autres que cibles doivent être numériques.
  4. Mesure de l'Association: sélectionnez l'une des corrélations entre le produit Pearsonet le moment, la corrélation entre les rangs des lanceursou la statistique D de Hoeffding.

Afficher la sortie

R ancre: la sortie du rapport comprend 3 tableaux comprenant une analyse de corrélation Pearson: analyse focalisée du champ trans, matrice de corrélation complète et matrice des valeurs p correspondantes.

I ancre: le rapport interactif inclut une matrice de corrélation avec dispersion qui change en fonction de votre position de souris.

Tableau des valeurs critiques pour la corrélation produit-moment de Pearson