Skip to main content

Databricks 上的 Apache Spark

连接类型

REST/HTML 服务器

分发验证版本

Databricks

服务器详细信息

有关 Databricks 的信息可以在 此处 找到。

支持类型

数据库内

验证版本

ODBC 客户端版本:2.6.23.1039

用于连接的 Alteryx 工具

数据库内工作流处理

Blue icon with database being plugged in.
Blue icon with a stream-like object flowing into a database.
Apache Spark Code Tool Icon

将一个库内连接工具或 Apache Spark Code 工具拖放到画布上,以连接到 Apache Spark。使用 Apache Spark on Databricks 驱动程序为 Databricks 创建新连接。使用下方说明配置连接。详细信息请参阅 Databricks 文档

配置 Databricks 连接窗口

要连接到 Databricks 并创建 Alteryx 连接字符串:

  1. 输入 账户 ID 区域

    • 对于托管在 AWS 上的 Databricks,输入您的 Databricks 账户 ID 。您可以在 Databricks 账户控制台的右上角选择用户名旁边的向下箭头,检索账户 ID。

    • 对于托管在 Azure 上的 Databricks,输入您的 区域 。区域是 Azure 数据中心的位置。可由 Databricks 管理员提供。

  2. 粘贴您在 Databricks 用户设置中生成的 Databricks 令牌 。令牌可能会过期或被撤销。

  3. 选择 连接 。Designer 会显示要连接的 Databricks 集群列表。如果连接不成功,请尝试再次输入凭证。

  4. 选择要连接的 Databricks 集群

  5. 选择一个 会话 类型 。根据您编写的代码语言,选择其中一项:

    • Scala

    • Python

    • R

  6. (可选)为作业输入一个描述性的 运行 名称 ,以便以后识别。运行名称可帮助用户区分服务器上的不同作业。如果留空,名称默认为 Untitled(无标题)。

  7. 设置 超时 的分钟数。这是指作业停止前不活动的分钟数。如果输入 15 分钟,作业在超时之前,将空闲 15 分钟而不进行任何活动。详细信息请参阅 Databricks 文档

  8. 在已提供的库集之外添加更多 ,以编写自己的代码。

    文件类型

    描述

    jar

    Java ARchive

    egg

    适用于 Python 相关项目的单文件可导入分发格式。

    PyPi

    Python 包索引是 Python 的软件存储库。

    Maven

    文件和工件的存储库。

    CRAN

    R 文件包

    选择“ + ”图标添加一行。选择 保存 ,将库配置设置保存到文件中。使用 文件 图标 ,查找已保存的配置文件。若要删除一行,请将鼠标悬停在该行上,然后选择垃圾桶图标。

  9. Databricks 连接 中,选择 确定

  10. 管理 库内 连接 中,选择 确定 ,以创建 Alteryx 连接字符串。