
Outil Remplissage ST
Utilisez Time Series Filler pour prendre un flux de données de données de séries chronolo diques et combler les lacunes de la série.
Cet outil est principalement utilisé comme étape de préparation pour l’utilisation d’outils et de macros liés aux séries temporelles en aval. Certains outils de séries temporelles produisent des résultats ou des erreurs inattendus si le flux de données contient des lacunes dans la série de temps, par exemple, vous avez une série de données qui est censée contenir des mesures toutes les 5 minutes, mais vous n’avez pas réellement de mesures couvrant toutes les 5 minutes. Utilisez cette macro dès que vous soupçonnez que votre flux de données peut présenter des trous.
Cet outil utilise l’outil R. Accédez à Options > Téléchargez des outils prédictifs et connectez-vous au portail Téléchargements et licences Alteryx pour installer R et les packages utilisés par l’outil R. Voir Télécharger et utiliser des outils prédictifs.
Connecter une entrée
L’outil TS Filler nécessite un flux de données Designer contenant une colonne contenant des valeurs de date ou d’heure de date.
Configurer l'outil
Utilisez l’onglet Configuration pour définir les contrôles de la façon dont la série de temps est remplie.
- Sélectionnez La colonne Date ou DateTime: choisissez la colonne date ou heure de date qui indique quand la ligne de données a été collectée.
- Intervalle: Sélectionnez l’intervalle par lequel la série de temps est mesurée. Les options incluent Minute, Heure, Jour, Semaine, Moiset Année.
- Incrément: Sélectionnez l’incrément par lequel chaque période de série de temps unique doit être séparée. Vous pouvez définir l'incrément sur un entier compris entre 1 et 100.
Exemple
Pour générer une série couvrant "toutes les 3 semaines", vous réglez intervalle à la semaine et incrémenter à 3.
Afficher la sortie
Chaque ligne entrant dans la macro apparaît dans la sortie. De plus, la macro évalue si des périodes de la série chronologique sont manquantes, et si c'est le cas, génère une ligne pour combler l'écart.
L’outil ajoute deux colonnes de données au flux de données entrant :
- OriginalDateTime: colonne date-heure qui contient la valeur d’heure de date originale et non modifiée
- FlagGeneratedRow: Colonne d’indicateur booléen, où « True » indique que la ligne de données a été générée par la macro pour combler une lacune de séries horaires et « False » indique qu’il s’agit d’une ligne de données source.
Pour les lignes de données source passant dans la macro :
- La colonne FlagGeneratedRow lit «Faux» pour indiquer qu’il s’agit d’une ligne de données source, et non d’une ligne générée par la macro.
- La colonne [yourDateTimeColumn] est « arrondie » à la période appropriée. Voir la section Arrondir ci-dessous.
- Toutes les autres colonnes de source passent à travers inchangé.
Pour les lignes qui ont été générées pour combler les trous :
- La colonne FlagGeneratedRow indique « Vrai » pour indiquer qu’il s’agit d’une ligne générée par la macro, et non d’une série de données sources.
- La colonne [yourDateTimeColumn] a une date ou une valeur d’heure de date générée par la macro qui « comble » l’écart identifié dans la série.
- Toutes les autres colonnes sont nulles.
Début/fin de période
Dans la plupart des scénarios utilisés par les entreprises classiques, les périodes de séries temporelles sont gérées comme suit :
- "Niveau de temps": Pour les intervalles
- "Niveau de date": Pour les intervalles ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' '
DateTime "Rounding"
La seule modification que la macro apporte aux données entrantes est : un «arrondi» est appliqué à la [yourDateTimeColumn]. Il se base sur trois éléments clés :
- Intervalle
- La plus ancienne valeur de date-temps dans le flux de données
- Incrément
D’abord, toutes les fractions de l’intervalle choisi sont tronquées. Par exemple, si vous choisissez "Heure" comme l’intervalle, la macro tronque toutes les minutes et les secondes de la valeur de date-temps, par exemple. 13h58 devient 13h00.
Après avoir tronqué les fractions de l’intervalle choisi, la macro va alors déterminer quelles sont les périodes valides. La valeur la plus ancienne de date-temps entrant dans la macro forme la base de la série. Poursuivant l’exemple ci-dessus "hour-series", si la date la plus précoce dans le [yourDateTimeColumn] est 13h58, puis la première période est 13h00. Si l’augmentation choisie est de 5, les périodes suivantes sont générées en fonction de l’ajout successif de l’incrément choisi — 5 heures — à la période précédente, ce qui donne lieu à ce cas à 13 h, 18 h, 23 h, etc.
Enfin, maintenant que toutes les périodes valides ont été déterminées, toutes les valeurs de date sont ensuite ajustées à la période valide appropriée. Ainsi, une valeur brute de 17h59 dans le [yourDateTimeColumn] devient 17h00 et 18h02 devient 18h00, etc.
Période "Étiquettes"
Après que tous les ajustements de date-temps ont été appliqués par la macro, le résultat [yourDateTimeColumn] est maintenant effectivement un «label» pour cette période. Toutefois, le datatype est une colonne de date ou d’heure de date (plutôt qu’une chaîne), et en tant que tel, cette « étiquette » peut ne pas être entièrement intuitive. La clé est de reconnaître que toute partie de la date ou de l’heure de la date "étiquette" qui est "fractionnel" à l’intervalle choisi doit être ignorée. Donc, si l’intervalle est "année", alors une période d’exemple pourrait être "2018-01-01" mais c’est l’année qui compte dans l’étiquette, les parties fractionnelles de l’étiquette- le "01-01"-devrait être ignorée, ce qui signifie que la période est tout simplement l’année 2018, ou "n’importe quand en 2018". Voir le tableau ci-dessous.
Conservation des données
Notez qu’en dehors de la date-temps "arrondi" décrit ci-dessus, la macro ne modifie aucune donnée entrante. Il ne fait pas de combinaison, de résumé, de diquage ou de tout type de validation sur les données entrantes. Cependant, à cause de l’arrondissement de la date, plusieurs mesures au sein de la même période ne porteront pas la même étiquette de période. Par conséquent, les données sont à présent plus propres et peuvent être plus facilement synthétisées car les données peuvent être « groupées » en fonction de cette étiquette de période arrondie et cohérente.
Heure d’été
Notez que la macro ne tient pas compte de l’heure d’été donc, si vous avez une donnée de série niveau-heure qui traverses un passage à l’Heure d’été, il est possible que la macro génère une ligne heure (ou des lignes minutes) représentant une heure non valide. Par exemple, les zones qui « avancent » d’une heure en mars auront des rangées générées pour l’heure de 2 h du matin le jour du printemps avant même si cette heure n’a jamais réellement eu lieu (l’horloge passe de 13:59:59 à 3:00:00). Cette heure peut facilement être supprimée à l’aide d’un outil de filtre après le passage de la macro.
Exemple de cas d'utilisation
Pour clarifier, le tableau suivant énumère les options d’intervalle disponibles, suivies du datatype retourné, et de la question de savoir si la période pour ce type d’intervalle est un intervalle de « début de période » ou de « fin de période ». Le tableau affiche ensuite un exemple d’augmentation et de « première valeur brute » dans la série, pour illustrer ce que serait la période qui en résulterait « Label » et une description anglaise de ce que signifie réellement l’étiquette d’époque. Enfin, le tableau note quelle partie de l’étiquette d’époque doit essentiellement être ignorée, comme les portions qui sont fractionnées à l’intervalle.
Intervalle | Type de données retourné | Début/fin de période | Incrément exemple | Première valeur brute exemple | Étiquette première période de résultat | Description de la période | Ignorer sur étiquette de période |
---|---|---|---|---|---|---|---|
Minute | DateHeure | Début | 2 | 2015-04-09 02:16:33 | 2015-04-09 02:16:00 | "La période de 2 minutes STARTING à 2:16, couvrant tous les 2:16 et 2:17" | Secondes |
Heure | DateHeure | Début | 4 | 2015-04-09 02:16:33 | 2015-04-09 02:00:00 | "La période de 4 heures STARTING à 2, couvrant l'ensemble des 2, 3, 4, et 5 heures." | Minutes ou moins |
Jour | Date | Fin | 6 | 2015-04-09 02:16:33 | 2015-04-09 | « La période de 6 jours TERMINANT le 9/4, couvrant tout du 4/4 - 9/4. » | Heures ou moins |
Semaine | Date | Fin | 1 | 2015-04-09 02:16:33 | 2015-04-09 | « La période de 1 semaine TERMINANT le 9/4, couvrant tout du 3/4 - 9/4. » | Heures ou moins |
Mois | Date | Fin | 3 | 2015-04-09 02:16:33 | 2015-04-01 | « La période de 3 mois TERMINANT en avril, couvrant tout sur Février, Mars et Avril. » | Jours ou moins |
Année | Date | Fin | 2 | 2015-04-09 02:16:33 | 2015-04-01 | « La période de 2 ans TERMINANT en 2015, couvrant tout 2014 et 2015. » | Mois ou moins |