Préparation
Définir le type de champ sur la plus petite taille possible par rapport aux données contenues dans la colonne.
Fractionnez les enregistrements d'entrée en deux ou trois échantillons aléatoires.
Corrige les problèmes courants de la qualité des données, notamment les valeurs nulles et les caractères indésirables. Changer la casse.
L'outil Filtrer permet d'utiliser une condition pour sélectionner des données. Les lignes de données qui répondent à la condition sont sorties via l’ancrage Vrai (T).
L'outil Formule utilise des expressions pour créer et mettre à jour des colonnes.
L'outil Générer les lignes crée de nouvelles lignes de données au niveau de l’enregistrement.
L'outil Imputation permet à l'utilisateur de remplacer une valeur dans des champs de données numériques.
Cet outil permet à un utilisateur de créer des ensembles de plusieurs champs ou de répartir sur plusieurs champs à la fois.
L'outil Formule à plusieurs champs crée ou met à jour plusieurs champs à l'aide d'une expression unique.
Cet outil utilise des expressions pour créer et mettre à jour des colonnes en utilisant des données de ligne afin de créer des formules.
Cet outil permet de normaliser les données avec des réponses négatives élevées.
Renvoie un échantillon aléatoire du flux de données entrant.
Utilisez l'outil ID d'enregistrement pour créer une nouvelle colonne dans les données et attribuer un identifiant unique, qui augmente de manière séquentielle, pour chaque enregistrement dans les données.
Cet outil limite le flux de données à un nombre spécifié, un pourcentage ou un ensemble aléatoire de lignes.
Cet outil renvoie les enregistrements et les plages d'enregistrements spécifiés,
L'outil Sélectionner inclut, exclut et réorganise les colonnes de données qui transitent par un workflow.
Utilisez l'outil Trier pour organiser les enregistrements d'une table dans un ordre alphanumérique, en fonction des valeurs des champs de données spécifiés.
Cet outil utilise des méthodes spécifiées par l'utilisateur pour attribuer une valeur (ensemble) basée sur des plages dans les données.
Cet outil distingue si un enregistrement de données est unique ou un duplicata en fonction des champs spécifiés.