Ferramenta de enchimento TS
A ferramenta de preenchimento de séries de tempo leva um fluxo de dados de dados da série temporal e preenche quaisquer lacunas na série.
Esta ferramenta é usada principalmente como uma etapa de preparação para usar as ferramentas e as macros relacionadas às séries de tempo downstream. Algumas ferramentas de série temporal produzem resultados inesperados ou erros se o fluxo de dados contém lacunas na série temporal, por exemplo, você tem uma série de dados que é suposto para conter medições a cada 5 minutos, mas você realmente não tem medições abrangendo a cada 5 minutos. Use essa macro sempre que você suspeitar que seu fluxo de dados pode ter lacunas nele.
Esta ferramenta utiliza a ferramenta R. Acesse Opções > Baixar ferramentas preditivas e faça login em Portal de downloads and licenças do Alteryx para instalar o R e os pacotes usados pela Ferramenta R. Veja Baixar e utilizar ferramentas preditivas.
Conecte uma entrada
A ferramenta de preenchimento TS requer um fluxo de dados com uma coluna contendo valores DateTime ou Date.Designer
Configure a ferramenta
Use a guia configuração para definir os controles de como a série de tempo é preenchida.
- Selecione a coluna data ou DateTime: escolha a coluna data ou DateTime indicando quando a linha de dados foi coletada.
- Intervalo: selecione o intervalo pelo qual a série temporal é medida. As opções incluem minuto, hora, dia, semana, mêse ano.
- Incremento: selecione o incremento pelo qual cada período de série temporal exclusivo deve ser separado. Você pode definir o incremento para qualquer número inteiro de 1 a 100.
Visualizar a saída
Cada linha que entra na macro aparece na saída. Além disso, a macro é avaliada se quaisquer períodos na série temporal estiverem ausentes e, em caso disso, gerará uma linha para preencher a lacuna.
A ferramenta anexa duas colunas de dados ao fluxo de dados de entrada:
- OriginalDateTime: uma coluna datetime contendo o valor DateTime original, inalterado
- FlagGeneratedRow: uma coluna de sinalizador Booleanoa, com "true" indicando que a linha de dados foi gerada pela macro para preencher uma lacuna de série temporal; "false" indicando que é uma linha de dados de origem.
Para linhas de dados de origem passando pela macro:
- A coluna FlagGeneratedRow irá ler "false" para indicar que é uma linha de dados de origem; Não uma linha gerada pela macro.
- A coluna [yourDateTimeColumn] será "arredondada" para o período apropriado. Veja a seção "arredondamento" abaixo.
- Todas as outras colunas de origem passarão inalteradas.
Para as linhas que foram geradas para preencher lacunas:
- A coluna FlagGeneratedRow irá ler "true" para indicar que é uma linha gerada pela macro, não uma linha de dados de origem.
- A coluna [yourDateTimeColumn] terá uma data preenchida ou um valor DateTime gerado pela macro que "preenche" a lacuna identificada na série.
- Todas as outras colunas serão NULL.
Por cenários de uso de negócios mais comuns, os períodos de séries de tempo são tratados da seguinte maneira:
- "nível de tempo": para intervalos
- "nível de data": para intervalos > = um dia, o período é "período final."
A única modificação que a macro faz para os dados de entrada é: um "arredondamento" é aplicado ao [yourDateTimeColumn]. Baseia-se em três elementos-chave:
- Intervalo
- O valor DateTime mais antigo no fluxo de dados
- Incremento
Primeiro, todas as frações do intervalo escolhido são truncadas. Por exemplo, se você escolher "hora" como o intervalo, a macro truncará quaisquer minutos e segundos do valor DateTime, portanto, por exemplo, 1:58pm se tornará 1:00h.
Depois de truncar as frações do intervalo escolhido, a macro, em seguida, determina quais são os períodos válidos. O valor DateTime mais antigo digitando a macro forma a base da série. Continuando o exemplo de "série de horas" acima, se o DateTime mais antigo na [yourDateTimeColumn] foi 1:58pm, o primeiro período é 1:00h. Se o incremento escolhido for 5, os períodos subsequentes serão gerados com base na adição sucessiva do incremento escolhido — 5 horas — para o período anterior, resultando neste caso às 1:00h, 6:00 PM, 11:00, etc.
Finalmente, agora que todos os períodos válidos foram determinados, todos os valores DateTime são então ajustados para o período válido apropriado. Assim, um valor bruto de 5:59pm no [yourDateTimeColumn] se tornaria 1:00h, 6:02pm se tornaria 6:00h, etc.
Depois que todos os ajustes de DateTime foram aplicados pela macro, o resultante [yourDateTimeColumn] é agora efetivamente um "rótulo" para esse período. No entanto, o DataType é uma coluna Date ou DateTime (em vez de uma cadeia de caracteres) e, como tal, este "rótulo" pode não ser totalmente intuitivo. A chave é reconhecer que qualquer parte da data ou DateTime "rótulo" que é "fracionário" para o intervalo escolhido deve ser ignorado. Então, se você intervalo é "ano", do que um período de exemplo poderia ser "2018-01-01", mas é o ano que importa no rótulo; as porções fracionárias do rótulo — o "01-01" — devem ser ignoradas, o que significa que o período é simplesmente o ano 2018, ou "em qualquer momento em 2018". Veja a tabela abaixo.
Observe que, além do DateTime "arredondamento" descrito acima, a macro não altera os dados de entrada. Ele não faz qualquer combinação, resumindo, uniquing ou qualquer tipo de validações nos dados de entrada. No entanto, por causa da data de arredondamento, várias medições dentro do mesmo período vai agora levar a mesma etiqueta de período. Como tal, os dados são agora mais limpos e podem ser mais facilmente resumidos porque os dados podem ser "agrupados por" este rótulo de período consistente e arredondado.
Observe que a macro não conta para o horário de verão, portanto, se você tiver dados de série de nível de tempo que cruza um horário de verão transição, é possível que a macro irá gerar uma linha de hora (ou linhas de minutos) representando uma hora inválido. Por exemplo, as áreas que "Spring forward" uma hora em março terá linha (s) gerada para a hora de 2h no dia da Primavera para a frente, embora essa hora nunca realmente ocorreu. (o relógio muda de 1:59:59 para 3:00:00.) Esta hora pode ser facilmente removida com uma ferramenta de filtragem após a macro.
Para esclarecer, a tabela a seguir lista as opções de intervalo disponíveis, seguido pelo que DataType é retornado e se o período para esse tipo de intervalo é um intervalo de "período inicial" ou "término do período". A tabela, em seguida, exibe um incremento de exemplo e "primeiro valor bruto" na série, para ilustrar o que o período resultante "rótulo" seria e uma descrição em inglês do que o rótulo de período realmente significa. Finalmente, a tabela observa qual parte do rótulo de período deve essencialmente ser ignorado, ou seja, as porções que são fracionárias para o intervalo.
Intervalo | Tipo de dados retornado | Início/término do período | Incremento de exemplo | Exemplo primeiro valor bruto | Rótulo do primeiro período do resultado | Descrição do período | Ignorar na etiqueta de período |
---|---|---|---|---|---|---|---|
Minuto |
DataHora | Começando | 2 | 2015-04-09 02:16:33 | 2015-04-09 02:16:00 | "o período de 2 minutos a partir de 2:16, cobrindo todos de 2:16 e 2:17" | Segundos |
Hora |
DataHora | Começando | 4 | 2015-04-09 02:16:33 | 2015-04-09 02:00:00 | "o período de 4 horas a partir de 2, cobrindo todas as 2, 3, 4 e 5 horas." | Minutos ou menos |
Dia |
Data | Final | 6 | 2015-04-09 02:16:33 | 2015-04-09 | "o período de 6 dias que termina em 4/9, cobrindo todos de 4/4-4/9." | Horas ou menos |
Semana |
Data | Final | 1 | 2015-04-09 02:16:33 | 2015-04-09 | "o período de 1 semana que termina em 4/9, cobrindo todos de 4/3-4/9." | Horas ou menos |
Mês |
Data | Final | 3 | 2015-04-09 02:16:33 | 2015-04-01 | "o período de 3 meses que termina em abril, cobrindo todos de fevereiro, março e abril." | Dias ou menos |
Ano |
Data | Final | 2 | 2015-04-09 02:16:33 | 2015-04-01 | "o período de 2 anos que termina em 2015, cobrindo todos de 2014 e 2015." | Meses ou menos |