Formato de arquivo de base de dados do Alteryx

O formato de arquivo de base de dados do Alteryx YXDB é um tipo de arquivo que pode conter campos de dados, valores e objetos geográficos. O formato YXDB é o tipo de arquivo mais eficiente para leitura e gravação no Alteryx porque não tem limite de tamanho, é compactado para máxima velocidade e inclui metadados adicionais que referenciam a origem dos dados e como os dados foram criados. Embora não haja limite para o número de linhas ou tamanho do arquivo, há um limite de 2 GB para uma célula única em um ambiente de 64 bits. Todos os produtos Alteryx oferecem suporte para leitura e gravação de arquivos YXDB.

Por que um arquivo YXDB é o tipo de arquivo de entrada/saída mais eficiente?

O arquivo YXDB usa exatamente os mesmos tipos de coluna, estruturas e formatos de arquivos que o Alteryx usa internamente, por isso ele funciona melhor com o programa. Não há limite de linha, então você pode ter mais de 2 bilhões de linhas. Nenhum outro formato de arquivo, além do formato de texto, oferece suporte a tantas linhas.

O arquivo YXDB é compactado?

Sim, eles são minimamente compactados para a velocidade máxima, não para a compactação máxima. Se você tem um índice geográfico, a compactação não é muito perceptível. Sem um índice geográfico, a compactação pode ser boa às vezes.

Se eu quiser transformar dados em um arquivo que contém um objeto geográfico, mas não interage com ele, ainda assim usar o formato YXDB é mais eficiente?

Sim, mas nesse caso você deve desativar o "Índice geográfico" em "Opções avançadas" para não perder tempo e espaço criando-o.

Quais outras informações são armazenadas em um arquivo YXDB?

Quando o Alteryx grava em um arquivo YXDB, os dados nas colunas origem e descrição são salvos no arquivo para que você sempre saiba como o campo foi criado e qual é o período referente aos valores de dados subjacentes. Consulte a Ferramenta Informações do Campo para obter um exemplo desses metadados.

Origem : contém a ferramenta, o arquivo ou o processo de onde o campo veio. Também pode conter metainformações adicionais, como um conjunto de dados específico de um plug-in. As ferramentas que relatam metainformações incluem: ferramenta Entrada do Allocate e ferramenta Adicionar Dados do Allocate , ferramenta CASS , ferramenta Fórmula , ferramenta Geocodificador de Rua e ferramentas que usam Guzzler, como ferramenta Área de Trade , ferramenta Distância , e ferramenta Encontrar o Mais Próximo .
Descrição : pode ou não conter informações. Se os dados forem agregados a partir de uma ferramenta Allocate, o nome de campo mais longo e descritivo estará contido aqui. Além disso, o usuário pode adicionar sua própria descrição de campo por meio da ferramenta Selecionar e essa informação permanece associada ao campo.

Exemplo de caso de uso

Problema

Tenho duas consultas SQL e alguns fluxos de trabalho onde o segundo conjunto de dados permanece o mesmo e tem 3 milhões de registros. Existe uma maneira de reutilizar o segundo conjunto de dados no mesmo fluxo de trabalho ou em fluxos de trabalho diferentes para que ele não precise executar a instrução para selecionar repetidamente?

Solução

Se você precisar de armazenamento intermediário de dados em seu fluxo de trabalho, use uma ferramenta Dados de Saída e grave para o formato YXDB. Pode ser que seu primeiro fluxo de trabalho grave no arquivo YXDB que armazena todos os dados de sua consulta. Em seguida, use esse YXDB como os dados de entrada para seus outros fluxos de trabalho. Desta forma, você pode trabalhar fora do conjunto de dados estático para desenvolvimento. Se você quiser mudar o fluxo de trabalho para uma conexão de dados em tempo real, basta copiar a ferramenta Dados de Entrada do outro fluxo de trabalho.

Como alternativa, se você só precisar reutilizar dados em um fluxo de trabalho, considere o recurso Armazenar em cache e executar fluxo de trabalho .

Nesta secção: