Skip to main content

Apache Spark Direct

连接类型

REST/HTML 服务器

分发验证版本

Hortonworks 2.6、Cloudera 5.7

服务器详细信息

有关 Apache Livy 的下载信息可以在 此处 找到。

支持类型

数据库内

验证版本

Apache Livy 0.3、Apache Spark 1.6/2.0/2.1/2.2

用于连接的 Alteryx 工具

数据库内工作流处理

将一个库内连接工具或 Apache Spark Code 工具拖放到画布上,以连接到 Apache Spark。使用 Apache Spark Direct 驱动程序创建一个新的 Livy 连接。使用下方说明配置连接。

配置 Livy 连接窗口

要连接到 Livy 服务器并创建 Alteryx 连接字符串:

添加一个新的库内连接,将 数据 设置为 Apache Spark Direct 。有关设置库内连接的详细信息,请访问 库内连接工具

读取 选项卡上, 驱动程序 将被锁定为 Apache Spark Direct 。单击 连接 字符串 下拉箭头,然后选择 新建数据库连接

配置 Livy 连接 窗口。

Livy Server 配置

选择您的安全首选项:

  • 输入或粘贴 Apache Spark 集群中 Livy 节点的 主机 IP 地址或 DNS 名称。

  • 输入 Livy 使用的 端口 。默认端口为 8998。

  • (可选)提供 用户 来设置用户模拟,即 Apache Spark 在运行作业时将使用的名称。

  • 输入或粘贴 Knox 网关的 URL

  • 输入与指定网关相关的 用户 密码

(可选)测试连接:

  • 选择集群使用的 Apache Spark 版本

  • 选择 Kerberos 连接类型。

  • 选择 测试

连接 模式 设置为 Apache Spark Code 工具中使用的编码语言。

HDFS连接

服务器 配置 中,选择与集群通信所用的 HDFS 协议相匹配的配置选项。

  • 输入 Apache Spark 集群中 HDFS 名称节点的 主机 IP 地址或 DNS 名称。

  • 输入 端口 号。默认端口将自动填充。

  • 输入 Apache Spark 集群中 HDFS 名称节点的 主机 IP 地址或 DNS 名称。

  • 输入 端口 号。默认端口将自动填充。

输入或粘贴 Knox 网关的 URL

(可选)输入 HDFS 连接的 用户名

(可选)输入 HDFS 连接的 密码

选择要使用的 Kerberos 协议。

高级选项

设置轮询间隔(毫秒),即 Alteryx 检查 Apache Spark 代码执行请求的间隔时间。默认值为 1,000 毫秒或 1 秒。

设置等待时间(毫秒),即 Alteryx 等待执行请求完成的时间。用时超过设置等待时间的操作,会导致超时错误。默认值为 60,000 毫秒或 1 分钟。

Apache Spark 配置选项可对创建的 Apache Spark 上下文进行个性化设置,并允许高级用户覆盖默认的 Apache Spark 设置。

注意

默认情况下,“配置选项”为 spark.jars.packages,“值”为 com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1。根据您使用的 Apache Spark 版本,可能需要覆盖默认值。

Apache Spark 版本

2.0 - 2.1

com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0

2.2

com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0

  • 选择(+ 图标)在配置选项表中添加另一行。

  • 选择(保存图标)将当前高级设置保存为 JSON 文件。然后,可将该文件加载到另一个连接的高级设置中。

  • 选择(打开图标)将 JSON 文件加载到配置选项表中。

选择 确定 ,创建 Apache Spark Direct 连接。

限制

目前,Alteryx 支持 Cloudera Data Platform (CDP) 中的原生 Spark,但不支持 Cloudera Distributed Hadoop (CDH)。

不支持启用 TLS/SSL 的 Livy 服务器。