Skip to main content

Azure HDInsight 中的 Apache Spark

连接类型

REST/HTML 服务器

分发验证版本

Microsoft Azure HDInsight

服务器详细信息

有关 Microsoft Azure 的信息可以在 此处 找到。

支持类型

数据库内

验证版本

Spark 2.1、ADLS Gen1 Storage

用于连接的 Alteryx 工具

In-database Workflow Processing

其他详细信息

使用 Microsoft Azure HDInsight 连接 窗口,通过 Microsoft Azure HDInsight 选项,创建与 Microsoft Azure HDInsight 的新连接。使用下方说明配置连接。

配置 Microsoft Azure HDInsight 连接窗口

要连接到 Microsoft Azure HDInsight 并创建 Alteryx 连接字符串:

  • 添加一个新的数据库内连接。将 数据源 设置为 Microsoft Azure HDInsight 中的 Apache Spark 。有关设置库内连接的详细信息,可前往 库内连接工具

  • 读取 选项卡上, 驱动程序 设置为 Azure HDInsight 中的 Apache Spark 。选择 连接字符串 下拉箭头,然后选择 新建数据库连接

  • 配置 Microsoft Azure HDInsight 连接 窗口。

Microsoft Azure HDInsight 配置

  • 配置 Azure URL

    • 输入或粘贴适用于 Microsoft Azure HDInsight 连接的 Azure URL 。例如: https://<clustername>.azurehdinsight.net/

    • 输入与连接相关的 用户名 密码

    • 请联系您的管理员,获得您在设置 Microsoft Azure HDInsight 集群时配置的集群管理员用户的用户名和密码。

    • 选择集群使用的 Apache Spark 版本

  • 选择 测试 以测试连接。

  • 将“连接模式”设置为 Apache Spark Code 工具中使用的编码语言。

  • 连接到您的 Microsoft Azure 存储账户。

Azure存储
  • 输入要与您的连接一起使用的存储 (ADLS Gen1 Storage) 的 存储 URL 。此 URL 需要使用 HTTPS 协议。

  • 输入 租户 ID GUID 。这可在您的 Microsoft Azure Active Directory > 属性 > 目录 ID 下的属性中找到。

  • 输入 客户端 ID 。在 Microsoft Azure 中,此信息也被称为应用程序 ID。这可在您的 Microsoft Azure Active Directory > 应用程序注册下的属性中找到。您可以在 Microsoft 文档 > 获取应用程序 ID 和身份验证密钥 页面找到更多信息。

  • 输入 客户端密钥 。在 Microsoft Azure 中,此信息作为一个身份验证密钥字符串,是从应用程序 ID 生成的。您可以在 Microsoft Azure 将应用程序与 Azure Active Directory 集成 页面上找到更多信息。

高级选项
  • 设置 轮询间隔(毫秒) ,即 Alteryx 检查 Apache Spark 代码执行请求的间隔时间。默认值为 1,000 毫秒或 1 秒。

  • 设置 等待时间(毫秒) ,即 Alteryx 等待执行请求完成的时间。用时超过设置等待时间的操作,会导致超时错误。默认值为 60,000 毫秒,或 1 分钟。

  • Apache Spark 配置选项 可对创建的 Apache Spark 上下文进行个性化设置,并允许高级用户覆盖默认的 Apache Spark 设置。

注意

默认情况下, 配置选项 为 spark.jars.packages, com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1 。根据您使用的 Apache Spark 版本,可能需要覆盖默认值。

Apache Spark 版本

2.0 - 2.1

com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0

2.2

com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0

  • 选择 + 图标,在配置选项表中添加另一行。

  • 选择保存图标,将当前高级设置保存为 JSON 文件。然后,可将该文件加载到另一个连接的高级设置中。

  • 选择打开图标,将 JSON 文件加载到配置选项表中。

选择 确定 ,创建您的 Microsoft Azure HDInsight 中的 Apache Spark 连接。