Examen des données

La catégorie outil d'investigation des données comprend des outils pour comprendre les données à utiliser dans un projet d'analyse prédictive et des outils pour effectuer des tâches d'échantillonnage de données spécialisées pour l'analyse prédictive.

Outil Analyse d’association: L'outil d'analyse d'association détermine quels champs d'une base de données ont une association bivariée les uns avec les autres.

Outil Profil de données de base: L'outil de profil de données de base génère des métadonnées de base telles que type de données, min, Max, moyenne, nombre de valeurs manquantes, etc.

Outil Tableau de contingence: L'outil table de contingence crée une table de contingence basée sur des champs sélectionnés, pour répertorier toutes les combinaisons des valeurs de champ avec des colonnes de fréquence et de pourcentage.

Outil Analyse de distribution: L'outil d'analyse de la distribution correspond à une ou plusieurs distributions aux données d'entrée et les compare en fonction d'un certain nombre de statistiques sur la qualité de l'ajustement *.

Outil Récapitulatif des champs: L'outil Résumé des champs analyse les données et crée un rapport récapitulatif contenant des statistiques descriptives des données dans les colonnes sélectionnées. L’outil Récapitulatif des champs permet de tirer parti des données et de recevoir des recommandations pour la gestion des données.

Outil Tableau des fréquences: L'outil table de fréquence produit une analyse de fréquence pour les champs sélectionnés. La sortie inclut un résumé des champs sélectionnés avec des nombres de fréquences et des pourcentages pour chaque valeur d'un champ.

Outil Diagramme thermique: L'outil de traçage thermique utilise une carte de couleur de tracé thermique pour montrer la distribution conjointe de deux variables qui sont soit des variables numériques continues, soit des catégories ordonnées.

Outil Histogramme: L'outil histogramme fournit un tracé d'histogramme pour un champ numérique en affichant les fréquences des enregistrements tombant dans un ensemble de plages de valeurs continues. Il fournit également une parcelle de densité empirique lissée. Il affiche les fréquences si aucun densitogramme n’est sélectionné et les probabilités si cette option est sélectionnée.

Outil Pondération de l’importance: L'outil poids de l'importance fournit des méthodes pour sélectionner un ensemble de variables à utiliser dans un modèle prédictif basé sur la façon dont fortement lié chaque prédicteur possible est à la variable cible.

Outil Corrélation de Pearson: L'outil de corrélation Pearson mesure la dépendance linéaire entre deux variables et la covariance.

Outil Tracé des moyennes: L'outil de traçage des moyens prend un champ numérique ou binaire (avec le champ binaire catégorique converti en un ensemble de valeurs zéro et une) comme champ de réponse avec un champ catégorique et trace la moyenne du champ de réponse pour chacune des catégories (niveau s) du champ catégorique.

Outil Nuage de points: L'outil dispersion fait des diagrammes améliorées, avec des options pour inclure diagrammes dans les marges, une ligne de régression linéaire, une courbe lisse via une régression non paramétrique, une propagation conditionnelle lissée, une identification aberrante et une ligne de régression.

Outil Corrélation de Spearman: L'outil de corrélation de lanceur évalue la façon dont une fonction arbitraire monotone pourrait décrire la relation entre deux variables, sans faire d'autres hypothèses sur la nature particulière de la relation entre les variables.

Outil Diagramme en violon: L'outil de traçage de violon affiche la distribution d'une seule variable numérique et transmet la densité de la distribution.