Skip to main content

Préparation

Préparer les données pour une analyse en aval.

Élément

Description

Outil Colonne automatique

Utilisez l'outil Colonne automatique pour modifier automatiquement le type et la taille d'une colonne pour optimiser le stockage des données d'une chaîne.

Outil Créer des échantillonsOutil Créer des échantillons

Utilisez l'outil Créer des échantillons pour fractionner les enregistrements d'entrée en 2 ou 3 échantillons aléatoires.

Data Cleanse Pro Tool

Utilisez l'outil Nettoyage des données pro pour corriger les problèmes courants de qualité des données. Vous pouvez remplacer les valeurs nulles, supprimer la ponctuation et les balises HTML, modifier la mise en majuscules et bien plus encore.

Outil Nettoyage des donnéesOutil Nettoyage des données

Utilisez l'outil Nettoyage des données pour corriger les problèmes courants de qualité des données. Vous pouvez remplacer les valeurs nulles, supprimer la ponctuation, modifier la mise en majuscules et bien plus encore.

Outil FiltrerOutil Filtrer

Utilisez l'outil Filtrer pour sélectionner des données à l'aide d'une condition.

Outil FormuleOutil Formule

Utilisez l'outil Formule pour créer de nouvelles colonnes, mettre à jour des colonnes et utiliser une ou plusieurs expressions pour effectuer divers calculs et opérations.

Outil Générer les lignes

Utilisez l'outil Générer les lignes pour créer de nouvelles lignes de données à l'aide d'une expression.

Imputation Tool Imputation Tool

Utilisez l'outil Imputation pour nettoyer les valeurs manquantes dans vos données.

Multi-Column Binning Tool Multi-Column Binning Tool

Utilisez l'outil Stockage multicolonnes pour créer des ensembles de plusieurs colonnes ou stocker sur plusieurs colonnes à la fois.

Outil Formule à plusieurs colonnesOutil Formule à plusieurs colonnes

Utilisez l'outil Formule à plusieurs colonnes pour créer ou mettre à jour plusieurs colonnes à l'aide d'une expression unique.

Multi-Row Formula Tool

Utiliser l'outil Formule à plusieurs lignes pour créer et mettre à jour des colonnes en utilisant des données de ligne afin de créer des formules.

Oversample Column Tool Oversample Column Tool

Utilisez l'outil Suréchantillonner la colonne pour créer automatiquement des échantillons équilibrés à partir de données non équilibrées à utiliser dans la modélisation statistique.

Outil Échantillon % aléatoireOutil Échantillon % aléatoire

Utilisez l'outil Échantillon % aléatoire pour renvoyer un nombre attendu de lignes qui génère un échantillon aléatoire du flux de données entrant.

Outil Rang

Utilisez Rang pour ranger vos données en vue d'un traitement futur ou d'une sortie ultérieure.

Outil ID de ligneOutil ID de ligne

Utilisez l'outil ID de ligne pour créer une nouvelle colonne dans les données et attribuer un identifiant unique, qui s'incrémente séquentiellement pour chaque ligne des données.

Outil ÉchantillonOutil Échantillon

Utilisez l'outil Échantillon pour limiter le flux de données à un nombre spécifié, un pourcentage ou un ensemble aléatoire de lignes. De plus, l'outil Échantillon applique la configuration sélectionnée aux colonnes que vous souhaitez regrouper.

Outil SélectionnerOutil Sélectionner

Utilisez l'outil Sélectionner pour inclure, exclure et réorganiser les colonnes de données qui transitent par votre workflow.

Outil Sélectionner des lignesOutil Sélectionner des lignes

Utilisez l'outil Sélectionner des lignes pour renvoyer les lignes et les plages de lignes spécifiées, y compris les plages de lignes non continues. Cet outil est utile pour la résolution des problèmes et l'échantillonnage.

Outil TrierOutil Trier

Utilisez l'outil Trier pour réorganiser les lignes d'une table dans l'ordre alphanumérique, en fonction des valeurs des champs de données spécifiés.

Outil EnsembleOutil Ensemble

Utilisez l'outil Ensemble pour attribuer une valeur (ensemble) basée sur des plages dans les données. Pour ce faire, l'outil se base sur l'une des trois méthodes spécifiées par l'utilisateur.

Outil UniqueOutil Unique

Utilisez l'outil Unique pour distinguer si une ligne est unique ou un doublon en regroupant une ou plusieurs colonnes spécifiées, puis en triant ces colonnes.