Skip to main content

Azure HDInsight 中的 Apache Spark

连接类型

REST/HTML 服务器

分发验证版本

Microsoft Azure HDInsight

服务器详细信息

有关 Microsoft Azure 的信息可以在 此处 找到。

支持类型

数据库内

验证版本

Spark 2.1、ADLS Gen1 Storage

用于连接的 Alteryx 工具

Blue icon with database being plugged in.
Blue icon with a stream-like object flowing into a database.
Apache Spark Code Tool Icon

其他详细信息

使用 Microsoft Azure HDInsight 连接 窗口,通过 Microsoft Azure HDInsight 选项,创建与 Microsoft Azure HDInsight 的新连接。使用下方说明配置连接。

配置 Microsoft Azure HDInsight 连接窗口

要连接到 Microsoft Azure HDInsight 并创建 Alteryx 连接字符串:

  • 添加一个新的数据库内连接。将 数据源 设置为 Microsoft Azure HDInsight 中的 Apache Spark 。有关设置库内连接的详细信息,可前往 库内连接工具

  • 读取 选项卡上, 驱动程序 设置为 Azure HDInsight 中的 Apache Spark 。选择 连接字符串 下拉箭头,然后选择 新建数据库连接

  • 配置 Microsoft Azure HDInsight 连接 窗口。

Microsoft Azure HDInsight 配置

  • 配置 Azure URL

    • 输入或粘贴适用于 Microsoft Azure HDInsight 连接的 Azure URL 。例如: https://<clustername>.azurehdinsight.net/

    • 输入与连接相关的 用户名 密码

    • 请联系您的管理员,获得您在设置 Microsoft Azure HDInsight 集群时配置的集群管理员用户的用户名和密码。

    • 选择集群使用的 Apache Spark 版本

  • 选择 测试 以测试连接。

  • 将“连接模式”设置为 Apache Spark Code 工具中使用的编码语言。

  • 连接到您的 Microsoft Azure 存储账户。

Azure存储
  • 输入要与您的连接一起使用的存储 (ADLS Gen1 Storage) 的 存储 URL 。此 URL 需要使用 HTTPS 协议。

  • 输入 租户 ID GUID 。这可在您的 Microsoft Azure Active Directory > 属性 > 目录 ID 下的属性中找到。

  • 输入 客户端 ID 。在 Microsoft Azure 中,此信息也被称为应用程序 ID。这可在您的 Microsoft Azure Active Directory > 应用程序注册下的属性中找到。您可以在 Microsoft 文档 > 获取应用程序 ID 和身份验证密钥 页面找到更多信息。

  • 输入 客户端密钥 。在 Microsoft Azure 中,此信息作为一个身份验证密钥字符串,是从应用程序 ID 生成的。您可以在 Microsoft Azure 将应用程序与 Azure Active Directory 集成 页面上找到更多信息。

高级选项
  • 设置 轮询间隔(毫秒) ,即 Alteryx 检查 Apache Spark 代码执行请求的间隔时间。默认值为 1,000 毫秒或 1 秒。

  • 设置 等待时间(毫秒) ,即 Alteryx 等待执行请求完成的时间。用时超过设置等待时间的操作,会导致超时错误。默认值为 60,000 毫秒,或 1 分钟。

  • Apache Spark 配置选项 可对创建的 Apache Spark 上下文进行个性化设置,并允许高级用户覆盖默认的 Apache Spark 设置。

注意

默认情况下, 配置选项 为 spark.jars.packages, com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1 。根据您使用的 Apache Spark 版本,可能需要覆盖默认值。

Apache Spark 版本

2.0 - 2.1

com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0

2.2

com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0

  • 选择 + 图标,在配置选项表中添加另一行。

  • 选择保存图标,将当前高级设置保存为 JSON 文件。然后,可将该文件加载到另一个连接的高级设置中。

  • 选择打开图标,将 JSON 文件加载到配置选项表中。

选择 确定 ,创建您的 Microsoft Azure HDInsight 中的 Apache Spark 连接。