Databricks 上的 Apache Spark
连接类型 | REST/HTML 服务器 |
分发验证版本 | Databricks |
服务器详细信息 | 有关 Databricks 的信息可以在此处找到。 |
支持类型 | 数据库内 |
验证版本 | ODBC 客户端版本:2.6.23.1039 |
用于连接的 Alteryx 工具
数据库内工作流处理
将一个库内连接工具或 Apache Spark Code 工具拖放到画布上,以连接到 Apache Spark。使用 Apache Spark Direct 驱动程序创建一个新的 Livy 连接。使用下方说明配置连接。
配置 Databricks 连接窗口
要连接到 Databricks 并创建 Alteryx 连接字符串:
输入账户 ID或区域。
对于托管在 AWS 上的 Databricks,输入您的 Databricks 账户 ID。您可以在 Databricks 账户控制台的右上角选择用户名旁边的向下箭头,检索账户 ID。
对于托管在 Azure 上的 Databricks,输入您的区域。区域是 Azure 数据中心的位置。可由 Databricks 管理员提供。
粘贴您在 Databricks 用户设置中生成的 Databricks 令牌。令牌可能会过期或被撤销。
选择连接。Designer 会显示要连接的 Databricks 集群列表。如果连接不成功,请尝试再次输入凭证。
选择要连接的 Databricks 集群。
选择一个会话类型。根据您编写的代码语言,选择其中一项:
Scala
Python
R
(可选)为作业输入一个描述性的运行名称,以便以后识别。运行名称可帮助用户区分服务器上的不同作业。如果留空,名称默认为 Untitled(无标题)。
设置超时的分钟数。这是指作业停止前不活动的分钟数。如果输入 15 分钟,作业在超时之前,将空闲 15 分钟而不进行任何活动。详细信息请参阅 Databricks 文档。
在已提供的库集之外添加更多库,以编写自己的代码。
文件类型
描述
jar
Java ARchive
egg
适用于 Python 相关项目的单文件可导入分发格式。
PyPi
Python 包索引是 Python 的软件存储库。
Maven
文件和工件的存储库。
CRAN
R 文件包
选择“+”图标添加一行。选择保存,将库配置设置保存到文件中。使用文件夹图标,查找已保存的配置文件。若要删除一行,请将鼠标悬停在该行上,然后选择垃圾桶图标。
在 Databricks连接中,选择确定。
在管理库内连接中,选择确定,以创建 Alteryx 连接字符串。