Skip to main content

Databricks

连接类型

ODBC(64 位)

驱动程序配置要求

主机必须是 Databricks 集群 JDBC/ODBC 服务器主机名。

为获得最佳性能,必须在驱动程序“高级选项”中启用“Fast SQLPrepare”选项,以允许 Alteryx 在不运行查询的情况下检索元数据。

必须在 DSN 中取消选中 启用 CTAS 转换 复选框。该复选框默认选中。

要使用可视化查询构建器,请在驱动程序的“高级选项”中选择“使用查询获取表”选项。

同时支持 AWS 和 Azure。

支持类型

读取和写入、数据库内

验证版本

Databricks Interactive 和 SQL 端点集群、Simba Apache Spark 驱动程序 2.06.23。

用于连接的 Alteryx 工具

标准工作流处理

数据库内工作流处理

如果在读写 Unicode® 字符时遇到问题,请访问 Simba Impala ODBC 驱动程序。在 高级选项 下,选择 使用 SQL Unicode 类型

字符串长度由驱动程序控制。您可以在 ODBC DSN 的“高级选项”中进行更改,也可以通过驱动程序安装文件夹中的“驱动程序配置的高级选项”进行更改。

读取支持

安装并配置 Apache Spark ODBC 驱动程序:

  • Spark 服务器类型 :为您正在运行的 Apache Spark 版本选择相应的服务器类型。如果运行的是 Apache Spark 1.1 及更高版本,请选择 Apache SparkThriftServer。

  • 身份验证机制 :请参阅随 Simba Apache Spark 驱动程序下载的安装指南,以便根据您的设置进行配置。

要设置驱动程序 高级选项 ,请参阅随 Simba Apache Spark 驱动程序下载的安装指南。

写入支持

对于标准工作流和数据库内工作流,请使用 数据流传入工具 向 Databricks 写入数据。通过 Databricks 批量加载器提供写入支持。转至 管理数据库内连接 - 写入

配置“写入”选项卡

  1. 选择 Databricks 批量加载器 (Avro) Databricks 批量加载器 (CSV) 。要写入字段名称总计超过 4000 个字符的表格,请使用 CSV 而不是 Avro。CSV 使用的分隔符是标题开始 (SOH) 字符。

  2. 选择 连接字符串 下拉列表,然后选择 新建 Databricks 连接

  3. 选择现有的 ODBC 数据源,或者选择 ODBC 管理员 创建一个。

  4. 输入用户名和密码。这些字段不能为空。

  5. 输入 Databricks URL

    https://abc-abc123-123a.cloud.databricks.com

    警告

    在 URL 中添加尾随的“/”(例如 https://abc-abc123-123a.cloud.databricks.com /)将导致错误。

Databricks Delta Lake 批量连接

在 Designer 2024.1 中, Redshift 批量连接支持 AWS IAM (Identity and Access Management) 身份验证。

按照以下步骤配置 Databricks Delta Lake 批量连接。

重要

Databricks Delta Lake 批量连接仅在 Designer 版本 2022.1 及更高版本中可用。

  1. 选择 Databricks Delta Lake 批量加载器 (Avro) Databricks Delta Lake 批量加载器 (CSV) 。要写入字段名称总计超过 4000 个字符的表格,请使用 CSV 而不是 Avro。

  2. 选择 连接字符串 下拉列表,然后选择 新建数据库连接

  3. 选择现有的 ODBC 数据源,或者选择 ODBC 管理员 创建一个。

  4. 输入用户名和密码。这些字段不能为空。Alteryx 支持个人访问令牌。用户名为“token”。密码是个人访问令牌。

  5. 选择 暂存方法 (同时支持 AWS 和 Azure):

    1. 对于 Amazon S3

      1. 输入 AWS 访问密钥 密钥 进行身份验证;

      2. 选择 端点 或保留为 默认值

      3. 选择 使用 Signature V4 进行身份验证

      4. 选择所需的 服务器端加密 级别,默认值为“无”;

      5. 选择要用作暂存位置的 存储桶名称

        通过 Designer 2024.1, Databricks 批量加载器支持 AWS IAM (身份和访问管理)身份验证。

    2. 对于 Azure ADLS

      重要

      对于 Azure 批量加载,仅支持 ADLS Gen 2

      1. 选择 ADLS 容器

      2. 输入 共享密钥

      3. 输入 存储帐户

      4. 输入可选的 临时目录 。输入临时目录时,不要重复输入 容器名称

        示例

        如果文件夹结构为 Container/MyTempFolder/TempTables,则仅输入“MyTempFolder/TempTables”。

        如果此处输入的目录尚不存在,Alteryx 将创建一个。

        Alteryx 将使用每个暂存表格的表格名称创建一个子文件夹。

    3. 选择 确定 以应用。

      借助 Designer 2023.2, Databricks 批量加载器支持对 ADLS 暂存进行 Azure AD 身份验证 。此功能允许组织对存储帐户中的单个容器进行粒度管理,从而提高了 Databricks 批量加载器的安全性。

      如需详细了解如何通过 Databricks 批量加载器将 Azure AD 身份验证用于 ADLS 暂存,请参阅此社区页面。