Skip to main content

支持的文件格式

本节包含有关 Alteryx Analytics Cloud (AAC) 的输入和输出所支持文件格式和压缩方案的信息。

注意

要使用桌面应用程序(如 Microsoft Excel)的专有格式,您不需要在桌面上安装支持应用程序。

文件名

注意

在导入过程中, AAC 会根据文件名的扩展名识别文件格式。如果未提供扩展名,则 AAC 会假定提交的文件是某种类型的文本文件。非文本文件格式(如 Avro 和 Parquet)需要文件扩展名。

注意

包含特殊字符的文件名会导致在导入或发布到基于文件的数据存储时出现问题。

文件路径长度限制

文件路径的最大字符限制:

  • 导入数据集的源文件路径: 1024

    提示

    此限制( 存储位置 )适用于文件和表格。

  • 输出文件的文件路径: 2048

    提示

    此限制( 写入设置 )适用于存储在任何基于文件的存储位置上的文件。

导入文件名中的禁用字符

以下字符列表显示在产品所列区域中存在的问题。如果您遇到问题,以下列表可能会提供一些指导,帮助您了解问题的出现位置。

提示

应避免在导入文件名中使用这些字符。此列表可能不完全适用于所有可用的运行环境。

  • 通用:

    "/"
  • SEB 浏览器:

    "\"
  • Excel 文件名:

    "#","{","}"
  • 基于 Spark 的运行环境:

    "{", "*", "\"

本地输入文件格式

AAC 可以直接读取和导入以下文件格式:

  • CSV

  • JSON

    注意

    AAC 可以在本地读取 JSON 文件,但通常需要额外的工作才能正确构建为表格格式。根据 AAC 的配置方式(v1 或 v2),JSON 文件可能需要转换才能在应用程序中使用。

    注意

    AAC 要求提交的 JSON 文件每行包含 1 个有效的 JSON 对象。持续出现格式错误的 JSON 对象或换行符重叠的对象可能会导致导入失败。

    • 建议将源文件大小限制为 1 GB。由于转换发生在 Trifacta 节点中,因此此限制可能因 Trifacta 节点的内存而异。

    • 每个 JSON 记录的大小必须小于 20 MB。

    • 文件扩展名必须为 .json .JSON

    • 为获得最佳结果,您应用引号将所有键和值括起来,并以字符串形式导入。

    • 您可使用反斜杠字符 ( \ ) 转义引号值,以在字符串中将其视为文字。

    • 当您将值导入转换程序页面时, AAC 将重新推断每列的数据类型。

  • 纯文本

  • LOG

  • TSV

  • Parquet

    注意

    使用源自 Parquet 文件的数据集时,不支持世系信息和 $sourcerownumber 引用。

  • Avro

    注意

    使用源自 Avro 文件的数据集时,不支持世系信息和 $sourcerownumber 引用。

  • Google Sheets

    注意

    个人用户必须启用对其 Google Drive 的访问。除了 Google Sheets 外,不会从 Google Drive 读取任何数据。

转换后的文件格式

以下类型的文件不会以其原始格式读取到产品中。相反,这些文件类型使用转换服务转换为本机支持的文件格式,并存储在基础存储层中,然后摄取到产品中进行使用。

注意

产品不支持使用需要转换基础文件格式的压缩文件。

转换后的文件格式:

  • Excel (XLS/XLSX)

    注意

    不支持其他与 Excel 相关的格式,如 XLSM 格式。如果遇到问题,请尝试在 Microsoft Excel 应用程序中另存为 XLS 或 XLSX。

    提示

    您可以一次从单个工作簿导入多个工作表。

  • Google Sheets

    提示

    您可以一次从单个 Google Sheet 导入多个工作表。

  • PDF

  • JSON

本地输出文件格式

Designer Cloud 可以写入以下文件格式:

注意

某些输出格式可能需要由管理员启用。

  • CSV

  • JSON

  • Hyper

    注意

    以 Hyper 格式发布结果可能需要额外配置。见下文。

  • Avro

    注意

    Trifacta Photon 和 Spark 运行环境将 Snappy 压缩应用到此格式。

  • Parquet

    注意

    Trifacta Photon 和 Spark 运行环境将 Snappy 压缩应用到此格式。

压缩算法

导入文件时, AAC 会尝试根据文件扩展名推断正在使用的压缩算法。例如,假定 .gz 文件采用 GZIP 格式压缩。

注意

不支持导入基础格式需要通过转换服务进行转换的压缩文件。

读取本地文件格式

GZIP

BZIP

Snappy

注释

CSV

支持

支持

支持

JSON v2

不支持

不支持

不支持

转换后的文件格式。见上文。

JSON v1

支持

支持

支持

不是转换后的文件格式。见上文。

Avro

支持

写入本地文件格式

GZIP

BZIP

Snappy

CSV

支持

支持

支持

JSON

支持

支持

支持

Avro

支持;始终保持开启

Snappy 压缩格式

Designer Cloud 支持以下 Snappy 压缩格式变体:

文件扩展名

格式名称

注释

.sz

Framing2 格式

参见: https://github.com/google/snappy/blob/master/framing_format.txt

.snappy

Hadoop-snappy 格式

参见: https://code.google.com/p/hadoop-snappy/

注意

不支持 Xerial 的 snappy-java 格式(默认情况下也以采用 .snappy 文件扩展名编写)。

应用程序支持的文件格式

单个应用程序可能支持本页中所列文件格式和压缩算法的子集。

应用程序

描述

Designer Experience

您可以导入多种平面文件格式,以便在 Designer Experience 中使用。转至 Designer Cloud 文件格式选项 。

Trifacta Classic

支持所有平台文件格式和压缩算法。

Reporting

Reporting 将工作流中的数据用作输入。转到 Designer Experience

报告可以用 XLSX 和 PDF 格式导出。转至 报告用户界面

Machine Learning

用于模型训练或预测的上传数据必须是 CSV 文件。如需了解详情,请转至 问题设置 导出和预测