Azure HDInsight 中的 Apache Spark
连接类型 | REST/HTML 服务器 |
分发验证版本 | Microsoft Azure HDInsight |
服务器详细信息 | 有关 Microsoft Azure 的信息可以在此处找到。 |
支持类型 | 数据库内 |
验证版本 | Spark 2.1、ADLS Gen1 Storage |
用于连接的 Alteryx 工具
数据库内工作流处理
其他详细信息
使用 Microsoft Azure HDInsight 连接窗口,通过 Microsoft Azure HDInsight 选项,创建与 Microsoft Azure HDInsight 的新连接。使用下方说明配置连接。
配置 Microsoft Azure HDInsight 连接窗口
要连接到 Microsoft Azure HDInsight 并创建 Alteryx 连接字符串:
添加一个新的数据库内连接。将数据源设置为 Microsoft Azure HDInsight 中的Apache Spark。有关设置库内连接的详细信息,可前往库内连接工具。
在读取选项卡上,驱动程序设置为 Azure HDInsight 中的 Apache Spark。选择连接字符串下拉箭头,然后选择新建数据库连接。
配置 Microsoft Azure HDInsight 连接窗口。
Microsoft Azure HDInsight 配置
配置 Azure URL。
输入或粘贴适用于 Microsoft Azure HDInsight 连接的 Azure URL。例如:https://<clustername>.azurehdinsight.net/
输入与连接相关的用户名和密码。
请联系您的管理员,获得您在设置 Microsoft Azure HDInsight 集群时配置的集群管理员用户的用户名和密码。
选择集群使用的 Apache Spark 版本。
选择测试以测试连接。
将“连接模式”设置为 Apache Spark Code 工具中使用的编码语言。
连接到您的 Microsoft Azure 存储账户。
Azure存储
输入要与您的连接一起使用的存储 (ADLS Gen1 Storage) 的存储 URL。此 URL 需要使用 HTTPS 协议。
输入租户 ID GUID。这可在您的 Microsoft Azure Active Directory > 属性 > 目录 ID 下的属性中找到。
输入客户端 ID。在 Microsoft Azure 中,此信息也被称为应用程序 ID。这可在您的 Microsoft Azure Active Directory > 应用程序注册下的属性中找到。您可以在 Microsoft 文档 > 获取应用程序 ID 和身份验证密钥页面找到更多信息。
输入客户端密钥。在 Microsoft Azure 中,此信息作为一个身份验证密钥字符串,是从应用程序 ID 生成的。您可以在 Microsoft Azure 将应用程序与 Azure Active Directory 集成页面上找到更多信息。
高级选项
设置轮询间隔(毫秒),即 Alteryx 检查 Apache Spark 代码执行请求的间隔时间。默认值为 1,000 毫秒或 1 秒。
设置等待时间(毫秒),即 Alteryx 等待执行请求完成的时间。用时超过设置等待时间的操作,会导致超时错误。默认值为 60,000 毫秒,或 1 分钟。
Apache Spark 配置选项可对创建的 Apache Spark 上下文进行个性化设置,并允许高级用户覆盖默认的 Apache Spark 设置。
注意
默认情况下,配置选项为 spark.jars.packages,值为 com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1
。根据您使用的 Apache Spark 版本,可能需要覆盖默认值。
Apache Spark 版本 | 值 |
---|---|
2.0 - 2.1 |
|
2.2 |
|
选择 + 图标,在配置选项表中添加另一行。
选择保存图标,将当前高级设置保存为 JSON 文件。然后,可将该文件加载到另一个连接的高级设置中。
选择打开图标,将 JSON 文件加载到配置选项表中。
选择确定,创建您的 Microsoft Azure HDInsight 中的 Apache Spark 连接。