Alteryx 数据库文件格式
Alteryx 数据库文件格式 YXDB 是一种文件类型,可以保存数据字段、值和空间对象。YXDB 格式是 Alteryx 中读写效率最高的文件类型,因为它没有大小限制,经过压缩以实现最大速度,并且包含引用数据源和数据创建方式的附加元数据。虽然对行数或文件大小没有限制,但在 64 位环境中,单个单元的大小限制为 2GB。所有 Alteryx 产品都支持对 YXDB 文件的读写。
为什么 YXDB 文件是最有效的输入/输出文件类型?
YXDB 文件使用与 Alteryx 内部完全相同的列类型、结构和格式,因此它最适合该程序。没有行数限制,因此行数可以超过 20 亿。除了文本之外,没有任何其他文件格式支持如此多的行。
YXDB 文件是否已压缩?
是的,它们被最小程度地压缩以获得最大速度,而不是最大压缩。如果您有一个空间索引,那么压缩不是很明显。如果没有空间索引,压缩有时会很好。
如果我想转换包含空间对象的文件中的数据,但不与空间对象进行交互,那么使用 YXDB 仍然是最有效的吗?
是的,但在这种情况下,您需要关闭高级选项中的“空间索引”,这样就不会浪费任何时间和空间来创建它。
YXDB 文件中还存储了哪些其他信息?
当 Alteryx 写入 YXDB 文件时,“来源”和“描述”列中的数据会保存在文件中,因此您将始终知道字段的创建方式或者基础数据值的年份。如需查看此元数据的示例,请参阅 字段信息工具 。
来源 :包含字段来源的工具、文件或进程。它还可能包含其他元信息,例如插件中的特定数据集。报告元信息的工具包括: Allocate 输入工具 和 Allocate 附加工具 、 CASS 工具 、 公式工具 、 街道地理编码器工具 以及使用 Guzzler 的工具,例如 交易区域工具 、 距离工具 和 查找最近项工具 。
描述 :可能包含信息,也可能不包含信息。如果数据是从 Allocate 工具附加的,则此处包含更长、更具描述性的字段名称。此外,用户还可以通过 选择工具 添加自己的字段描述,并且这些信息将与字段保持关联。
示例使用案例
问题
我有 2 个 SQL 查询和一些工作流,其中第二个数据集保持不变并有 300 万条记录。是否有方法可以在同一工作流或不同工作流中重复使用第二个数据集,这样就不必反复执行 SELECT 语句?
解决方案
如果您的工作流需要对数据进行中间存储,请使用 输出数据工具 并写入 YXDB 格式。您可以让您的第一个工作流写入 YXDB 文件,以存储来自查询的所有数据。然后使用该 YXDB 作为其他工作流的输入数据。这样,您就可以利用静态数据集进行开发。如果您想将工作流切换到实时数据连接,您只需从其他工作流复制 输入数据工具 即可。
或者,如果您只需要在一个工作流中重复使用数据,请考虑使用 缓存和运行工作流 功能。