Skip to main content

Databricks 上的 Apache Spark

连接类型

REST/HTML 服务器

分发验证版本

Databricks

服务器详细信息

有关 Databricks 的信息可以在此处找到。

支持类型

数据库内

验证版本

ODBC 客户端版本:2.6.23.1039

用于连接的 Alteryx 工具

数据库内工作流处理

将一个库内连接工具或 Apache Spark Code 工具拖放到画布上,以连接到 Apache Spark。使用 Apache Spark Direct 驱动程序创建一个新的 Livy 连接。使用下方说明配置连接。

配置 Databricks 连接窗口

要连接到 Databricks 并创建 Alteryx 连接字符串:

  1. 输入账户 ID区域

    • 对于托管在 AWS 上的 Databricks,输入您的 Databricks 账户 ID。您可以在 Databricks 账户控制台的右上角选择用户名旁边的向下箭头,检索账户 ID。

    • 对于托管在 Azure 上的 Databricks,输入您的区域。区域是 Azure 数据中心的位置。可由 Databricks 管理员提供。

  2. 粘贴您在 Databricks 用户设置中生成的 Databricks 令牌。令牌可能会过期或被撤销。

  3. 选择连接。Designer 会显示要连接的 Databricks 集群列表。如果连接不成功,请尝试再次输入凭证。

  4. 选择要连接的 Databricks 集群

  5. 选择一个会话类型。根据您编写的代码语言,选择其中一项:

    • Scala

    • Python

    • R

  6. (可选)为作业输入一个描述性的运行名称,以便以后识别。运行名称可帮助用户区分服务器上的不同作业。如果留空,名称默认为 Untitled(无标题)。

  7. 设置超时的分钟数。这是指作业停止前不活动的分钟数。如果输入 15 分钟,作业在超时之前,将空闲 15 分钟而不进行任何活动。详细信息请参阅 Databricks 文档

  8. 在已提供的库集之外添加更多,以编写自己的代码。

    文件类型

    描述

    jar

    Java ARchive

    egg

    适用于 Python 相关项目的单文件可导入分发格式。

    PyPi

    Python 包索引是 Python 的软件存储库。

    Maven

    文件和工件的存储库。

    CRAN

    R 文件包

    选择“+”图标添加一行。选择保存,将库配置设置保存到文件中。使用文件图标,查找已保存的配置文件。若要删除一行,请将鼠标悬停在该行上,然后选择垃圾桶图标。

  9. Databricks连接中,选择确定

  10. 管理库内连接中,选择确定,以创建 Alteryx 连接字符串。