Skip to main content

Apache Spark on Microsoft Azure HDInsight

接続タイプ

REST/HTMLサーバー

検証されたディストリビューション

Microsoft Azure HDInsight

サーバーの詳細

Microsoft Azureの情報については、 こちら を参照してください。

サポートのタイプ

インデータベース

検証済み

Spark 2.1、ADLS Gen1ストレージ

接続に使用する Alteryx ツール

Blue icon with database being plugged in.
Blue icon with a stream-like object flowing into a database.
Apache Spark Code Tool Icon

追加の詳細

[ Microsoft Azure HDInsight接続 ] ウィンドウで、Microsoft Azure HDInsightオプションを使用して、Microsoft Azure HDInsightへの新しい接続を作成します。接続を設定するには、次の手順を使用します。

Microsoft Azure HDInsight接続ウィンドウの設定

Microsoft Azure HDInsightに接続してAlteryx接続文字列を作成するには、次の手順に従います。

  • 新しいIn-DB接続を追加します。 Microsoft Azure HDInsight で [ データソース ] を Apache Spark に設定します。In-DB接続の設定の詳細については、 接続In-DBツール を参照してください。

  • [ 読み取り ] タブで、[ ドライバー ] が Apache Spark on Microsoft Azure HDInsight に設定されています。[ 接続文字列 ] ドロップダウン矢印を選択し、[ 新しいデータベース接続 ] を選択します。

  • [ Microsoft Azure HDInsight接続 ] ウィンドウを設定します。

Microsoft Azure HDInsightの設定

  • Azure URL .を設定します。

    • Microsoft Azure HDInsight接続の Azure URL を入力または貼り付けます。例: https://<clustername>.azurehdinsight.net/

    • 接続に関連付けられた ユーザー名 パスワード を入力します。

    • 管理者に連絡して、Microsoft Azure HDInsightクラスターのセットアップ時に設定したクラスター管理者ユーザーのユーザー名とパスワードを確認します。

    • お使いのクラスターが使用する Apache Sparkバージョン を選択します。

  • [ テスト ] を選択して、接続をテストします。

  • 接続モードをApache Spark Codeツールで使用するコーディング言語に設定します。

  • Microsoft Azureストレージアカウントに接続します。

Azure ストレージ
詳細オプション
  • [ ポーリング間隔(ミリ秒) ] を設定します。これは、Apache Sparkコード実行要求のための、Alteryxからのチェック間隔です。デフォルトは1,000ミリ秒、または1秒です。

  • [ 待機時間(ミリ秒) ] を設定します。これは、実行要求が完了するまでAlteryxが待機する時間です。設定された待機時間より時間が長くかかると、タイムアウトエラーが発生します。デフォルトは60,000 ms、つまり1分です。

  • Apache Spark設定オプション では、作成されたApache Sparkコンテキストをカスタマイズでき、上級ユーザーは既定のApache Spark設定を上書きできます。

注記

デフォルトで、 構成オプションはspark.jars.packagesで 値 は com.databricks:spark-csv_2.10:1.5.0、com.databricks:spark-avro_2.10:2.0.1です。Apache Sparkのバージョンによっては、既定値の上書きが必要な場合があります。

Apache Sparkバージョン

2.0 - 2.1

com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0

2.2

com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0

  • 設定オプションテーブルに別の行を追加するには、[+] アイコンを選択します。

  • 保存アイコンを選択すると、現在の詳細設定がJSONファイルとして保存されます。ファイルは、別の接続の詳細設定にロードできます。

  • JSONファイルを設定オプションテーブルに読み込むには、開くアイコンを選択します。

[ OK ] を選択し、 Apache Spark on Microsoft Azure HDInsight 接続を作成します。