Outil Profil de données de base
L’outil Profil de données de base analyse les données et fournit des métadonnées pour chaque colonne (champ) de données.
Utilisez l’outil Profil de données de base pour afficher une vue d’ensemble, ou profil, des données et sortir les informations en vue d’une analyse ultérieure. Pour afficher une représentation visuelle du profil de données, outre les métadonnées, utilisez un outil Explorateur. Voir Outil Explorateur.
Configurer l’outil
Renseignez toutes les options de configuration facultatives :
- Limite pour le comptage exact: la limite par défaut est recommandée pour les meilleures performances. Augmentez la limite pour afficher les informations de profil relatives à davantage de données. Tapez ou cliquez pour sélectionner le nombre maximum de valeurs uniques qu’Alteryx doit identifier dans les données.
- Taille limite pour retourner toutes les valeurs uniques (caractères): la limite par défaut est recommandée pour les meilleures performances. Augmentez la limite pour afficher les informations de profil relatives à davantage de données. Tapez ou cliquez pour sélectionner le nombre de caractères maximum qu’Alteryx doit vérifier dans une valeur pour déterminer si elle est unique.
- Utiliser des unités métriques: sélectionner pour utiliser des unités métriques de mesure. Cette option s’applique uniquement aux données géographiques.
Afficher la sortie
Les informations de profil des données affichées dans la fenêtre Résultats varient selon le type de données provenant de l’outil Connecter. Voir Types de données, pour obtenir la liste des types de données.
Les résultats sont affichés verticalement. Faites défiler l’écran pour parcourir les métadonnées relatives à chaque colonne de données.
Si une colonne contient des valeurs de type chaîne, les métadonnées suivantes sont fournies :
- Nom : le nom de la colonne.
- Type de données : le type de données de la colonne sélectionnée.
- Taille : la quantité de mémoire réservée à chaque enregistrement dans cette colonne.
- Source: origine de la colonne. Il peut s’agir du nom de la source de données ou du chemin d’accès à l’emplacement où sont enregistrées les données.
- Description: la description de la colonne, si disponible. Si aucune description n’est disponible, ce champ est renseigné par [Null].
- NULLES : le nombre de valeurs dans la colonne qui sont NULL, à l'exclusion des valeurs vides.
- Non Nulles : le nombre d'entrées non nulles dans la colonne, y compris les valeurs vides.
- Vides : le nombre de valeurs vides.
- Valeurs avec espace vide de début : le nombre de valeurs de chaîne contenant un espace avant la valeur. Utilisez l’outil Nettoyage des données ou la fonction d’ajustement de l’outil Formule pour résoudre le problème. Voir Outil Nettoyage des données et Outil Formule.
- Valeurs avec espace vide de fin : le nombre de valeurs de chaîne suivies d'un espace.
- Valeurs avec les deux espaces: le nombre de valeurs de chaîne avec un espace avant et après la valeur.
- Longueur moyenne : la longueur moyenne des valeurs dans la colonne.
- Longueur la plus longue : le nombre de caractères dans la plus longue valeur de la colonne.
- Valeur la plus longue : la plus longue valeur de la colonne.
- Longueur la plus courte (non vide) : le nombre de caractères dans la plus courte valeur de la colonne.
- Valeur la plus courte : la plus courte valeur de la colonne.
- Minimum: première entrée de chaîne dans une colonne triée par ordre alphabétique.
- Maximum: dernière entrée de chaîne dans une colonne triée par ordre alphabétique.
- Uniques : le nombre de valeurs uniques dans le champ. Utilisez l’outil Unique pour obtenir un comptage intégral des entrées uniques et des doublons. Voir Outil Unique.
- Valeurs uniques: toutes les valeurs uniques de la colonne.
Si une colonne contient des valeurs numériques, les métadonnées suivantes sont fournies :
- Nom : le nom de la colonne.
- Type de données : le type de données de la colonne sélectionnée.
- Taille : la quantité de mémoire réservée à chaque enregistrement dans cette colonne.
- Source: origine de la colonne. Il peut s’agir du nom de la source de données ou du chemin d’accès à l’emplacement où sont enregistrées les données.
- Description: la description de la colonne, si disponible. Si aucune description n’est disponible, ce champ est renseigné par [Null].
- NULLES : le nombre de valeurs dans la colonne qui sont NULL, à l'exclusion des valeurs vides.
- Non Nulles : le nombre d'entrées non nulles dans la colonne, y compris les valeurs vides.
- Minimum : la plus petite valeur de la colonne.
- Maximum : la plus grande valeur de la colonne.
- Moyenne : la valeur moyenne des valeurs dans la colonne.
- Écart-type : la mesure de la dispersion des valeurs dans le graphique.
- Variance : la mesure de la distance selon laquelle un ensemble de nombres aléatoires sont dispersés par rapport à la moyenne.
- Uniques : le nombre de valeurs uniques dans le champ. Utilisez l’outil Unique pour obtenir un comptage intégral des entrées uniques et des doublons. Voir Outil Unique.
- Valeurs uniques: toutes les valeurs uniques de la colonne.
- 25e percentile : la valeur médiane dans la partie inférieure, ou la première moitié des données.
- 50e percentile : la valeur médiane des données.
- 75e percentile : la valeur médiane dans la partie supérieure, ou seconde moitié des données.
- Histogramme: nombre de valeurs dans la colonne qui tombent dans des données regroupées uniformément. Chaque groupe est indiqué par une valeur de départ et un comptage des valeurs dans le groupe, séparés par un signe deux-points. Un groupe contient des valeurs allant jusqu’à la valeur de départ du groupe suivant, cette valeur de départ étant exclue. 1:23, 2:15,3:0 indique trois groupes commençant à 1, 2 et 3. Chaque groupe possède respectivement 23, 15 et 0 éléments.
- Marge d'erreur: plage de valeurs possible sous et au-dessus de la valeur calculée.
Si une colonne contient des données de type date/heure, les métadonnées suivantes sont fournies :
- Nom : le nom de la colonne.
- Type de données : le type de données de la colonne sélectionnée.
- Taille : la quantité de mémoire réservée à chaque enregistrement dans cette colonne.
- Source: origine de la colonne. Il peut s’agir du nom de la source de données ou du chemin d’accès à l’emplacement où sont enregistrées les données.
- Description: la description de la colonne, si disponible. Si aucune description n’est disponible, ce champ est renseigné par [Null].
- NULLES : le nombre de valeurs dans la colonne qui sont NULL, à l'exclusion des valeurs vides.
- Non Nulles : le nombre d'entrées non nulles dans la colonne, y compris les valeurs vides.
- Histogrammede date: (uniquement pour les données de date) nombre de valeurs dans la colonne qui tombent dans des données regroupées uniformément. Chaque groupe est indiqué par une valeur de départ et un comptage des valeurs dans le groupe, séparés par un signe deux-points. Un groupe contient des valeurs allant jusqu’à la valeur de départ du groupe suivant, cette valeur de départ étant exclue. 1:23, 2:15,3:0 indique trois groupes commençant à 1, 2 et 3. Chaque groupe possède respectivement 23, 15 et 0 éléments.
- Minimum : la plus petite valeur de la colonne.
- Maximum : la plus grande valeur de la colonne.
- Uniques : le nombre de valeurs uniques dans le champ. Utilisez l’outil Unique pour obtenir un comptage intégral des entrées uniques et des doublons. Voir Outil Unique.
- Valeurs uniques: toutes les valeurs uniques de la colonne.
Si une colonne contient des objets géographiques, les métadonnées suivantes sont fournies :
- Nom : le nom de la colonne.
- Type de données : le type de données de la colonne sélectionnée.
- Taille : la quantité de mémoire réservée à chaque enregistrement dans cette colonne.
- Source: origine de la colonne. Il peut s’agir du nom de la source de données ou du chemin d’accès à l’emplacement où sont enregistrées les données.
- Description: la description de la colonne, si disponible. Si aucune description n’est disponible, ce champ est renseigné par [Null].
- NULLES : le nombre de valeurs dans la colonne qui sont NULL, à l'exclusion des valeurs vides.
- Non Nulles : le nombre d'entrées non nulles dans la colonne, y compris les valeurs vides.
- Taille moyenne (octets): taille moyenne en mémoire que cet objet prend.
- Taille la plus grande (octets): taille en mémoire du plus grand objet de la colonne.
- Pointde comptage: nombre d'objets spatiaux dans la colonne qui sont des points.
- Ligne Count: nombre d'objets spatiaux dans la colonne qui sont des lignes.
- Compte Polyline: nombre d'objets spatiaux dans la colonne qui sont des polylignes.
- Count rectangle: nombre d'objets spatiaux dans la colonne qui sont des rectangles.
- Count Polygon: nombre d'objets spatiaux dans la colonne qui sont des polygones.
- Count multipoint: nombre d'objets spatiaux dans la colonne qui sont multi-points.
- Nombre moyen de parties: nombre moyen de pièces dans les objets spatiaux de la colonne.
- Plus grand nombre de parties: le plus grand nombre de pièces dans les objets spatiaux dans la colonne.
- Nombre moyen de points: nombre moyen de points dans les objets spatiaux dans la colonne.
- Plus grand nombre de points: le plus grand nombre de points dans les objets spatiaux dans la colonne.
- Longueur la plus longue: la longueur la plus longue dans les objets spatiaux dans la colonne.
- Plus grand secteur: la plus grande zone en milles carrés ou kilomètres carrés.