Apache Spark on Microsoft Azure HDInsight

バージョン:
2023.1
Last modified: September 30, 2021

接続に使用される Alteryx ツール

Link
Blue icon with database being plugged in.

接続In-DBツール

Link
Blue icon with a stream-like object flowing into a database.

データストリーム入力ツール

Link
Apache Spark Code Tool Icon

Apache Sparkコードツール

追加の詳細

Microsoft Azure HDInsight 接続ウィンドウを使用して、Microsoft Azure HDInsight オプションを使用して、Microsoft Azure HDInsight への新しい接続を作成します。接続を構成するには、以下の手順を使用します。

Microsoft Azure HDInsight 接続ウィンドウを構成する

Microsoft Azure HDInsight に接続し、Alteryx 接続文字列を作成するには、次の作業を行います。

  • 新しい DB 内接続を追加し、Microsoft Azure HDInsightApache Sparkデータ ソースを設定します。DB 内接続の設定の詳細については、「DB 内接続」ツールを参照してください。
  • [読み取り]タブで、ドライバMicrosoft Azure HDInsight の Apache Spark に設定されます。[接続文字列]ドロップダウン矢印をクリックし、[新しいデータベース接続]を選択します。
  • Microsoft Azure HDInsight 接続ウィンドウを構成します。

マイクロソフト Azure HDInsight 構成

  • Azure URLの構成
    • Microsoft Azure HDInsight 接続のAzure URLを入力または貼り付けます。例: https://.azurehdinsight.net/
    • 接続に関連付けられているユーザー名パスワードを入力します。
    • Microsoft Azure HDInsight クラスターのセットアップ時に構成したクラスター管理者ユーザーのユーザー名とパスワードについては、管理者に問い合わせてください。
    • クラスターで使用するApache Spark バージョンを選択します。
  • [テスト]をクリックして接続をテストします。
  • Apache Spark コード ツールで使用するコーディング言語に接続モードを設定します。
  • Microsoft Azure ストレージアカウントに接続します。
Azure storage
  • 接続で使用するストレージのストレージ URL (Microsoft Azure BLOB ストレージ、Microsoft Azure データ レイク ストレージ、その他のプライマリ ストレージなど) を入力します。この URL には HTTPS プロトコルが必要です。
  • テナントID GUIDを入力します。これは、[Microsoft Azure Active Directory] > [プロパティ] > [ディレクトリ ID] のプロパティにあります。
  • クライアント ID を入力します。Microsoft Azure では、この情報はアプリケーション ID とも呼ばれます。これは、[Microsoft Azure Active Directory] > [アプリの登録] の下のプロパティにあります。詳細については、マイクロソフトドキュメント > アプリケーション ID と認証キーの取得を参照してください。
  • クライアントシークレットを入力します。Microsoft Azure では、この情報はアプリケーション ID から認証キー文字列として生成されます。詳細については、Microsoft Azureの統合アプリケーションと Azure Active Directoryページを参照してください。
詳細オプション
  • ポーリング間隔 (ms)を設定します。デフォルトは1,000ミリ秒、または1秒です。
  • Alteryx が実行要求が完了するのを待機する時間 (ms)を設定します。設定された待機時間より時間が長くかかると、タイムアウトエラーが発生します。デフォルトは60,000 ms、つまり1分です。
  • Apache Spark 設定オプションは、作成された Apache Spark コンテキストをカスタマイズし、上級ユーザーがデフォルトの Apache Spark 設定をオーバーライドできるようにします。

デフォルトでは、構成オプションは spark.jars.packages で、com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1です。Apache Spark のバージョンによっては、デフォルト値をオーバーライドする必要がある場合があります。

アパッチスパークバージョン
2.0 - 2.1 com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0
2.2 com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0
  • 構成オプションテーブルに別の行を追加するには、(+アイコン)をクリックします。
  • (アイコンを保存)をクリックすると、現在の詳細設定がJSONファイルとして保存されます。ファイルは、別の接続の詳細設定にロードできます。
  • JSONファイルを構成オプションテーブルに読み込むには、(アイコンを開く)をクリックします。

[OK]をクリックして、Microsoft Azure HDInsight接続で Apache Spark を作成します。

このページは役に立ちましたか?

Alteryx 製品のご利用中に何か問題がございましたら、Alteryx コミュニティにアクセスするか、サポートにお問い合わせください。このフォームを送信できない場合E メールでお送りください。