Apache Spark Direct
连接类型 | REST/HTML 服务器 |
分发验证版本 | Hortonworks 2.6、Cloudera 5.7 |
服务器详细信息 | 有关 Apache Livy 的下载信息可以在 此处 找到。 |
支持类型 | 数据库内 |
验证版本 | Apache Livy 0.3、Apache Spark 1.6/2.0/2.1/2.2 |
用于连接的 Alteryx 工具
数据库内工作流处理
将一个库内连接工具或 Apache Spark Code 工具拖放到画布上,以连接到 Apache Spark。使用 Apache Spark Direct 驱动程序创建一个新的 Livy 连接。使用下方说明配置连接。
配置 Livy 连接窗口
要连接到 Livy 服务器并创建 Alteryx 连接字符串:
添加一个新的库内连接,将 数据 源 设置为 Apache Spark Direct 。有关设置库内连接的详细信息,请访问 库内连接工具 。
在 读取 选项卡上, 驱动程序 将被锁定为 Apache Spark Direct 。单击 连接 字符串 下拉箭头,然后选择 新建数据库连接 。
配置 Livy 连接 窗口。
Livy Server 配置
选择您的安全首选项:
输入或粘贴 Apache Spark 集群中 Livy 节点的 主机 IP 地址或 DNS 名称。
输入 Livy 使用的 端口 。默认端口为 8998。
(可选)提供 用户 名 来设置用户模拟,即 Apache Spark 在运行作业时将使用的名称。
输入或粘贴 Knox 网关的 URL 。
输入与指定网关相关的 用户 名 和 密码 。
(可选)测试连接:
选择集群使用的 Apache Spark 版本 。
选择 Kerberos 连接类型。
选择 测试 。
将 连接 模式 设置为 Apache Spark Code 工具中使用的编码语言。
HDFS连接
在 服务器 配置 中,选择与集群通信所用的 HDFS 协议相匹配的配置选项。
输入 Apache Spark 集群中 HDFS 名称节点的 主机 IP 地址或 DNS 名称。
输入 端口 号。默认端口将自动填充。
输入 Apache Spark 集群中 HDFS 名称节点的 主机 IP 地址或 DNS 名称。
输入 端口 号。默认端口将自动填充。
输入或粘贴 Knox 网关的 URL 。
(可选)输入 HDFS 连接的 用户名 。
(可选)输入 HDFS 连接的 密码 。
选择要使用的 Kerberos 协议。
高级选项
设置轮询间隔(毫秒),即 Alteryx 检查 Apache Spark 代码执行请求的间隔时间。默认值为 1,000 毫秒或 1 秒。
设置等待时间(毫秒),即 Alteryx 等待执行请求完成的时间。用时超过设置等待时间的操作,会导致超时错误。默认值为 60,000 毫秒或 1 分钟。
Apache Spark 配置选项可对创建的 Apache Spark 上下文进行个性化设置,并允许高级用户覆盖默认的 Apache Spark 设置。
注意
默认情况下,“配置选项”为 spark.jars.packages,“值”为 com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1。根据您使用的 Apache Spark 版本,可能需要覆盖默认值。
Apache Spark 版本 | 值 |
---|---|
2.0 - 2.1 | com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0 |
2.2 | com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0 |
选择(+ 图标)在配置选项表中添加另一行。
选择(保存图标)将当前高级设置保存为 JSON 文件。然后,可将该文件加载到另一个连接的高级设置中。
选择(打开图标)将 JSON 文件加载到配置选项表中。
选择 确定 ,创建 Apache Spark Direct 连接。
限制
目前,Alteryx 支持 Cloudera Data Platform (CDP) 中的原生 Spark,但不支持 Cloudera Distributed Hadoop (CDH)。
不支持启用 TLS/SSL 的 Livy 服务器。