Skip to main content

Formato de archivo de base de datos Alteryx

El formato de archivo de base de datos Alteryx, YXDB, es un tipo de archivo que puede contener campos, valores y objetos espaciales de datos. El formato YXDB es el tipo de archivo más eficiente para lectura y escritura en Alteryx porque no tiene límite de tamaño, se comprime para la velocidad máxima e incluye metadatos adicionales que hacen referencia a la fuente de los datos y cómo se crearon estos. Aunque no hay límite para el número de filas o tamaño de archivo, hay un límite de tamaño de 2 GB para una sola celda en un entorno de 64 bits. Todos los productos Alteryx tienen soporte de lectura y escritura para archivos YXDB.

¿Por qué YXDB es el tipo de archivo de entrada/salida más eficaz?

Un archivo YXDB utiliza exactamente los mismos tipos de columnas, estructuras y formatos que Alteryx utiliza de forma interna, por lo que funciona mejor con el programa. No hay límite de filas, así que puedes tener más de dos mil millones de filas. No hay ningún otro formato de archivo, aparte del texto, que admita tantas filas.

¿Los archivos YXDB están comprimidos?

Sí, se comprimen mínimamente para obtener la máxima velocidad, no la máxima compresión. Si tienes un índice espacial, la compresión no es muy perceptible. Sin un índice espacial, la compresión puede ser bastante buena a veces.

Si quiero transformar datos en un archivo que contiene un objeto espacial, pero no interactúo con el objeto espacial, ¿sigue siendo más eficaz utilizar YXDB?

Sí, pero en este caso, te recomendamos desactivar el índice espacial en las opciones avanzadas para que no pierdas tiempo ni espacio creándolo.

¿Qué otra información se almacena en un archivo YXDB?

Cuando Alteryx escribe en un archivo YXDB, los datos de las columnas Origen y Descripción se guardan en el archivo para que siempre sepas cómo se creó un campo o cuál es la versión vintage de los valores de datos subyacentes. Consulta la herramienta Información del campo para ver un ejemplo de estos metadatos.

Caso práctico de ejemplo

Problema

Tengo dos consultas SQL y algunos flujos de trabajo en los que el segundo conjunto de datos permanece igual y tiene tres millones de registros. ¿Hay alguna manera de reutilizar el segundo conjunto de datos en el mismo flujo de trabajo o en otros para que no tenga que ejecutar la instrucción de selección una y otra vez?

Solución

Si necesitas almacenamiento intermedio de los datos en tu flujo de trabajo, utiliza una herramienta Datos de salida y escribe en formato YXDB. Puedes hacer que tu primer flujo de trabajo se escriba en el archivo YXDB que almacena todos los datos de tu consulta. A continuación, utiliza ese archivo YXDB como datos de entrada en tus otros flujos de trabajo. De esta manera, puedes trabajar fuera del conjunto de datos estático para realizar tareas de desarrollo. Si alguna vez deseas cambiar el flujo de trabajo a una conexión de datos en directo, solo copia la herramienta Datos de entrada del otro flujo de trabajo.

Como alternativa, si solo necesitas reutilizar los datos dentro de un flujo de trabajo, considera usar la característica Caché y Ejecutar flujo de trabajo .

Cache and Run Workflow UI