Apache Spark on Microsoft Azure HDInsight
バージョン:
2023.1
Last modified: September 30, 2021
追加の詳細
Microsoft Azure HDInsight 接続ウィンドウを使用して、Microsoft Azure HDInsight オプションを使用して、Microsoft Azure HDInsight への新しい接続を作成します。接続を構成するには、以下の手順を使用します。
Microsoft Azure HDInsight 接続ウィンドウを構成する
Microsoft Azure HDInsight に接続し、Alteryx 接続文字列を作成するには、次の作業を行います。
- 新しい DB 内接続を追加し、Microsoft Azure HDInsightでApache Sparkにデータ ソースを設定します。DB 内接続の設定の詳細については、「DB 内接続」ツールを参照してください。
- [読み取り]タブで、ドライバはMicrosoft Azure HDInsight の Apache Spark に設定されます。[接続文字列]ドロップダウン矢印をクリックし、[新しいデータベース接続]を選択します。
- Microsoft Azure HDInsight 接続ウィンドウを構成します。
マイクロソフト Azure HDInsight 構成
- Azure URLの構成
- Microsoft Azure HDInsight 接続のAzure URLを入力または貼り付けます。例: https://
.azurehdinsight.net/ - 接続に関連付けられているユーザー名とパスワードを入力します。
- Microsoft Azure HDInsight クラスターのセットアップ時に構成したクラスター管理者ユーザーのユーザー名とパスワードについては、管理者に問い合わせてください。
- クラスターで使用するApache Spark バージョンを選択します。
- Microsoft Azure HDInsight 接続のAzure URLを入力または貼り付けます。例: https://
- [テスト]をクリックして接続をテストします。
- Apache Spark コード ツールで使用するコーディング言語に接続モードを設定します。
- Microsoft Azure ストレージアカウントに接続します。
Azure storage
- 接続で使用するストレージのストレージ URL (Microsoft Azure BLOB ストレージ、Microsoft Azure データ レイク ストレージ、その他のプライマリ ストレージなど) を入力します。この URL には HTTPS プロトコルが必要です。
- テナントID GUIDを入力します。これは、[Microsoft Azure Active Directory] > [プロパティ] > [ディレクトリ ID] のプロパティにあります。
- クライアント ID を入力します。Microsoft Azure では、この情報はアプリケーション ID とも呼ばれます。これは、[Microsoft Azure Active Directory] > [アプリの登録] の下のプロパティにあります。詳細については、マイクロソフトドキュメント > アプリケーション ID と認証キーの取得を参照してください。
- クライアントシークレットを入力します。Microsoft Azure では、この情報はアプリケーション ID から認証キー文字列として生成されます。詳細については、Microsoft Azureの統合アプリケーションと Azure Active Directoryページを参照してください。
詳細オプション
- ポーリング間隔 (ms)を設定します。デフォルトは1,000ミリ秒、または1秒です。
- Alteryx が実行要求が完了するのを待機する時間 (ms)を設定します。設定された待機時間より時間が長くかかると、タイムアウトエラーが発生します。デフォルトは60,000 ms、つまり1分です。
- Apache Spark 設定オプションは、作成された Apache Spark コンテキストをカスタマイズし、上級ユーザーがデフォルトの Apache Spark 設定をオーバーライドできるようにします。
デフォルトでは、構成オプションは spark.jars.packages で、値はcom.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1
です。Apache Spark のバージョンによっては、デフォルト値をオーバーライドする必要がある場合があります。
アパッチスパークバージョン | 値 |
---|---|
2.0 - 2.1 | com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0 |
2.2 | com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0 |
- 構成オプションテーブルに別の行を追加するには、(+アイコン)をクリックします。
- (アイコンを保存)をクリックすると、現在の詳細設定がJSONファイルとして保存されます。ファイルは、別の接続の詳細設定にロードできます。
- JSONファイルを構成オプションテーブルに読み込むには、(アイコンを開く)をクリックします。
[OK]をクリックして、Microsoft Azure HDInsight接続で Apache Spark を作成します。