Skip to main content

Microsoft Azure Data Lake Store

连接类型

Alteryx 工具。最新版本可从 Alteryx Marketplace 获得。

驱动程序详细信息

根据所选的登录方法,管理员可能需要配置对 Azure 数据湖和 Azure Active Directory 的访问权限,然后才能使用 Alteryx Azure 数据湖工具进行连接。

支持类型

读取和写入

版本

描述

v2.5.0

  • 与 Alteryx Designer 和 Server 2021.4.2 补丁 6、2022.1 补丁 4 及更高版本兼容。

  • 需要 AMP Engine。

  • Alteryx Server 需要 DCM 中存储的凭证才能运行工作流。

  • 已添加将文件下载到本地的选项,以备稍后处理。

  • 已移除对 Gen1 身份验证的支持。

  • 已修复与 DCM 身份验证相关的问题。(TPM-2462、TPM-2176)

  • 已修复 ADLS 输入无法正确读取 Null 值的问题。(TPM-3098、TPM-2659、TPM-2229)

  • 已修复当 ADLS 工具设置为在 1 行以外的其他行开始处理数据时工作流无法运行的问题。(TPM-2609、TPM-2277)

  • 已修复在处理单个区块循环后 ADLS 输入忽略其他数据的问题。 (TPM-2781)

  • 已修复 ADLS 输入返回的 CSV 文件格式错误的问题。(TPM-2175)

  • 已修复 ADLS 输出更改日期值的问题。(TPM-1928)

v2.4.3

  • 与 Alteryx Designer 和 Server 2021.4.2 补丁 4、2022.1 补丁 2 及更高版本兼容。

  • 仅与 AMP Engine 兼容。

  • 增加了对 DCM 的支持。

    • 在 Alteryx Server 中运行此连接器需要 DCM。

  • FIPS 功能。

  • 现在会针对 Windows 证书存储执行 SSL/TLS 验证。

  • 提高了写入性能和稳定性。

  • 新增了通过修改可变上传块大小来调整内存消耗和性能的选项。

  • 修复了当单元格包含超过 255 个字符时 XLSX 数据被截断的问题。

  • 修复了 SSL 证书中的非 Unicode 字符问题。

  • 修复了尽管“引号字符”字段已设置为 None 但 ADLS 输出工具仍会添加双引号字符的问题。 (TPM-1964)

  • 安全方面的改进。

v2.2.0

  • 允许用户在输出中指定自定义 CSV 分隔符。

  • 已修复潜在的 XXE 漏洞。

v2.1.0

  • 经过改进的新用户界面。

  • 已修复轻微问题。

  • 与 Alteryx Designer 和 Server 2021.2 及更高版本兼容。

v2.0

  • UI 升级和提升的错误处理能力

  • 增加了对 Gen2 存储的支持

  • 增加了对 Azure Government、China Cloud 和自定义端点的支持

  • 共享密钥身份验证支持

  • 公共应用程序支持(自有和 Alteryx)

  • 多租户支持

  • Excel 输入和输出支持

  • 增加了使用自定义分隔符读取和写入 .csv 文件的功能

  • 与 Alteryx Designer 和 Server 2019.3 及更高版本兼容。

v1.1.0

  • 修复了终端用户身份验证错误

  • 允许用户为终端用户身份验证指定重定向 URI

v1.0.2

  • 更新“代码页”选项。

  • 区分了具有相同语言的编码(例如“语言”->“语言(特定代码)”)并按字母顺序排列编码。

  • 允许用户通过输出工具指定 CSV 文件的编码。

  • 改进了错误消息以指明何时提供了无效的存储名称。

  • 提升了数据转换处理能力,当字段缺少值时,不抛出警告,而不是报错。

  • 修复了在用户更改存储名称后所显示的文件/文件夹不刷新的错误。

  • 修复了偶尔不遵从默认值设置的问题。

  • 已禁用生产日志记录,以防止 Designer 的不同安装/配置出现权限问题,并支持计划的工作流功能

v1.0.1

  • 修复了无法成功安装软件包的问题

v1.0.0

  • Azure 数据湖文件输入和 Azure 数据湖文件输出的初始版本

用于连接的 Alteryx 工具

Microsoft Azure 数据湖文件输入工具

Gray icon with file folder

链接

Microsoft Azure 数据湖文件输出工具

Gray icon with file graphic inside

链接

Azure 数据湖工具允许您连接到 Azure Data Lake Store 资源并读取/写入数据。

使用 Azure 数据湖 (ADL) 文件输入工具 将数据从 Azure Data Lake Store (ADLS) 中的文件读取到 Alteryx 工作流。

要将 Alteryx 工作流中的数据写入位于 ADLS 中的文件,请使用 ADL 文件输出工具

支持的文件格式包括 CSV、XLSX、JSON 或 Avro(对于输出工具,“附加”操作仅支持 CSV 格式)。

除共享密钥外,所有这些工具都针对 Azure Active Directory 端点进行身份验证。

数据连接管理器

Azure Data Lake Store 工具 2.3.0 版及更高版本支持 数据连接管理器 ,以便更轻松、更安全地存储凭证。创建与 Azure Data Lake Store 的连接,并在包含 Azure Data Lake Store 工具的工作流中轻松重用存储的凭证。Alteryx Server 需要存储的凭证才能成功运行已发布的工作流。

启用 AMP Engine

确保已为包含 2.3.0 及更高版本 Azure Data Lake Store 工具的工作流启用 AMP Engine

身份验证和授权

Gen1 和 Gen2 存储的 Azure 数据湖端点有所不同,在身份验证期间,您需要指定要连接的存储类型。如果您不确定使用的存储类型,可以询问 Azure 管理员或在 Microsoft Azure 门户 上检查。

提示

  • 要将工作流发布到 Server 或 AAH,请使用“服务到服务”或“共享密钥”身份验证类型,这样一来,刷新令牌过期后,不必重新上传工作流。

  • 由于加载元数据可能需要很长时间,您可以通过在高级用户设置(选项 > 用户设置 > 编辑用户设置 > 高级)中选择“禁用自动配置”来禁用元数据加载。

您需要授予在 Azure Data Lake Store 账户中读取和写入数据的权限。如需详细了解如何分配和应用这些权限,请参阅 Microsoft 官方文档。

单租户与多租户

单租户应用程序仅在其注册的租户(也称为主租户)中可用。您或您的 Azure 管理员可以在您的账户下创建单租户 Azure 应用程序和存储,您将在 Designer 中进行身份验证时使用这些应用程序和存储。多租户应用程序可供主租户和其他租户的用户使用。

最终用户(基本)

基本的终端用户身份验证是在 Designer 中访问您的 ADLS 数据的最方便的方法。请联系您的 Azure 管理员,请求其允许在您组织的 Azure 租户中使用公共 Alteryx 应用程序。请参阅 描述了步骤的 Microsoft 文档

租户:Gen1 Alteryx 应用程序的 通用 ADLS 客户端 ID:

Gen2 Alteryx 应用程序的 ADLS 客户端 ID: 2584cace-63ff-47cb-96d2-d153704f4d75

完成此设置后,您和您的同事可以使用普通的 Microsoft 凭证访问 ADLS 数据。

最终用户(高级)

高级终端用户身份验证支持单租户和多租户身份验证,可用于公共和私有应用程序。

如需了解凭证设置,请参阅 Microsoft 文档 中的说明。

身份验证配置

  • 租户 ID: 您可以从 Azure 门户获取租户 ID,或通过在 Tennant ID 字段中键入“common”来依赖 Azure 中的自动发现机制。如果要访问多个租户,您可以指定租户 ID。如需详细了解多租户,请参见“单租户与多租户”部分。

  • 客户端 ID: Azure 应用程序的唯一标识。客户端 ID 字段为必填字段。

  • 客户端密码: 如果您的应用程序是私有的,则必须提供客户端密码。如果您使用的是公共应用程序,请将该字段留空。

服务到服务

“服务到服务”身份验证适用于在 Server 和 Hub 上发布工作流。

如需了解凭证设置,请参阅 Microsoft 文档 中的说明。

共享密钥

注意

  • “共享密钥”身份验证只能与 Gen2 存储一起使用。

  • “发布到 Server”只适用于 Designer 和 Server 2020.4 及更高版本,因为此身份验证方法是从 2020.4 版本开始引入的。

对于 Azure 存储账户,Microsoft 将生成两个访问密钥,可用于通过“共享密钥”授权对 Azure 数据湖的访问。您可以在 Microsoft 文档 中找到有关共享密钥及其用法的更多信息。

Azure 国家云和自定义端点

从 v2.0 版本开始,ADLS 连接器支持访问自定义端点。可以在“身份验证授权端点”字段中连接器的身份验证屏幕上选择美国和中国国家云的 URL。

自定义 Microsoft Azure API 应用程序设置

要为此工具设置自定义 API 应用程序,请参阅 我们的指南 设置 Microsoft Azure API 应用程序

数据选择和配置选项

在“数据”选项卡中,可以指定要使用的数据:

  1. 指定 存储账户名称 。此存储需要与“身份验证”页面上选择的类型相同(分别为 Gen1 和 Gen2)。

  2. 对于 Gen2 存储,请指定 文件系统名称

  3. 选择 Gen2 的存储和文件系统后,您可以配置要读写的文件的路径。您可以通过直接输入“文件路径”字段或使用文件浏览器指定路径。对于 Azure 数据湖文件输出工具,您可以使用相同的机制创建新文件。

  4. 对于 Excel 文件,可以在文件浏览器下的“工作表”字段中指定工作表名称。如果留空,系统会自动选择第一个工作表。如果是新文件,工作表将被分配默认名称“Sheet”。

文件格式和配置

ADLS 工具支持以下数据格式:.csv、.avro、.json 和.xlsx。

  • CSV 文件

    • 读取

    • 写入: 您可以覆盖或附加到现有 CSV 文件。

提示

为了与输入和输出数据工具兼容,编码应为 UTF-8 SIG

  • JSON 文件

    • 读取: 要正确读取 JSON 文件,它们必须使用 无 BOM 的 UTF-8 编码。

    • 写入: 写入 JSON 文件时的数据类型转换有以下限制:“十进制”、“日期时间”和“时间”单元格输出为 字符串

  • Avro 文件

    • 读取

    • 写入

  • Excel 文件

    • 读取 :所有数据都被读取为 V_Wstrings。

    • 写入

其他详细信息

  • 如果处于无法访问(读/写)其他账户创建的特定文件夹的状态,则是因为权限造成的。

  • 如果您遇到一个错误,表明令牌可能已被撤消,则必须注销,然后重新登录到配置面板以重新进行身份验证。

注意

令牌生命周期属性可由系统管理员配置。

Azure Data Lake Explorer 必须授予在 Azure Data Lake Store 账户中读取和写入数据的权限。如需详细了解如何分配和应用这些权限,请访问 Microsoft 官方文档。

限制

从 Azure Data Lake Store 工具版本 2.5.0 开始,不支持 Gen1 身份验证。

JSON 和 Avro 仅限于 UTF-8。

对于 JSON,如果您尝试存储对于其数据类型过大的数字,则会出现静默转换错误。

对 Excel 文件执行的写入操作当前仅限于完全覆盖文件。

不支持包含类型为字节的字段的 Avro 文件,导入时将失败。

Alteryx 工作流浮点字段值在目标 Avro 文件中转换为双精度。

Microsoft Azure 数据湖、OneDrive 和 Dynamics CRM 连接器支持通过 Microsoft 用户凭证(比如电子邮件地址和密码)进行身份验证。在交互式工作流中,目前无法在这些连接器中使用不同的 Microsoft 用户账户进行身份验证。此限制不会影响计划的工作流。如果您在其中一个连接器中使用 Microsoft 用户账户进行身份验证,并尝试使用其他 Microsoft 用户账户对另一个连接器进行身份验证,您将看到一个错误消息弹出窗口。要解决此问题,请遵循以下建议之一:

  • Azure Active Directory 管理员可以向一个用户账户授予必要的权限,并确保构建工作流的用户拥有一个用户账户,该账户可以访问该工作流中所需的服务。

  • 在尝试登录之前,请注销任何通过其他 Microsoft 用户账户进行身份验证的连接器。

  • 尽可能避免使用终端用户身份验证。在 Azure 数据湖连接器中使用“服务到服务”身份验证,在 Dynamics CRM 连接器中使用“应用程序登录”身份验证。

此连接器不支持 Desktop Automation(计划程序)。