Apache Spark on Microsoft Azure HDInsight
次の手順を使用して、接続方法を学習します。 Microsoft Azure HDInsight Alteryx 接続文字列を作成します。
サポートのタイプ: | インデータベース |
検証済み: | アパッチスパーク 2.0 + |
以下で検証された分散: |
Microsoft Azure HDInsight |
接続タイプ: | REST / HTMLサーバー |
サーバーの詳細: | マイクロソフト Azure の情報はここで見つけることができます。 |
接続に使用されるAlteryxツール
- 接続(In-DB)ツール、 データストリームインツールそして アパッチスパークコードツール (データベース内のワークフロー処理)
追加の詳細
[ Microsoft Azure HDInsight 接続] ウィンドウを使用して、新しい接続を作成し Microsoft Azure HDInsight を使用して Microsoft Azure HDInsight オプション。 接続を構成するには、以下の手順を使用します。
設定、 Microsoft Azure HDInsight 接続ウィンドウ
に接続する Microsoft Azure HDInsight Alteryx 接続文字列を作成します。
- 新しい DB 接続を追加し、データソースをMicrosoft Azure HDInsight の Apache Spark に設定します。 DB 接続の設定の詳細については、 接続(In-DB)ツール。
- [読み取り] タブのドライバは、 Microsoft Azure HDInsight の Apache スパークに設定されています。 [接続文字列] ドロップダウン矢印をクリックし、[ 新しいデータベース接続] を選択します。
- [ Microsoft Azure HDInsight 接続] ウィンドウを構成します。
マイクロソフト Azure HDInsight の構成:
- Azure のURL を構成します。
Azure URL
- Azure の URL を入力または貼り付けて、 Microsoft Azure HDInsight 接続されていません。 例: https://. </clustername>
- 接続に 関連付けられているユーザー名とパスワードを入力します。
- 管理者に連絡して、セットアップ中に構成したクラスタアドミニストレータユーザーのユーザー名とパスワードを確認してください。 Microsoft Azure HDInsight クラスタします。
- クラスタで使用するApache Spark のバージョンを選択します。
- [テスト] をクリックして接続をテストします。
- Apache Spark コードツールで使用するコーディング言語に接続モードを設定します。
- Microsoft Azure ストレージアカウントに接続します。
Azure ストレージ
- 接続で使用する記憶域の URL (microsoft azure Blob ストレージ、microsoft azure データレイク記憶域、またはその他のプライマリ記憶域など) を入力します。 この URL には HTTPS プロトコルが必要です。
- テナント ID GUID を入力します。 これは、[Microsoft Azure Active Directory] > [プロパティ] > [ディレクトリ ID] のプロパティにあります。
- クライアント ID を入力します。 Microsoft Azure では、この情報はアプリケーション ID とも呼ばれます。 これは、[Microsoft Azure Active Directory] > [アプリの登録] の下のプロパティにあります。 詳細については、Microsoft ドキュメント > アプリケーション ID と認証キーの取得ページを参照してください。
- クライアントシークレットを入力します。 Microsoft Azure では、この情報はアプリケーション ID から認証キー文字列として生成されます。 詳細については、「azure Active Directory とのアプリケーションの統合」ページを参照してください。
アドバンスオプション
- 設定は、ポーリング間隔 (ミリ秒)、Apache のスパークコードの実行要求の Alteryx からのチェックの間の時間。 デフォルトは1,000ミリ秒、または1秒です。
- Alteryx が実行要求を完了するまで待機する時間(ミリ秒)を設定します。 設定された待機時間より時間が長くかかると、タイムアウトエラーが発生します。 デフォルトは60,000 ms、つまり1分です。
- apache spark 設定オプションは、作成された apache spark コンテキストをカスタマイズし、上級ユーザーがデフォルトの apache spark 設定を上書きできるようにします。
構成の既定値
既定では、構成オプションは spark です。 jar. パッケージと値はcom です。databricks: スパーク-csv_ 2.10: 1.5.0, databricks: avro_ 2.10: 2.0.1. Apache Spark のバージョンによっては、デフォルト値をオーバーライドする必要がある場合があります。
アパッチスパークバージョン | 値 |
---|---|
2.0 - 2.1 | com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0 |
2.2 | com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0 |
- 構成オプションテーブルに別の行を追加するには、(+アイコン)をクリックします。
- (アイコンを保存)をクリックすると、現在の詳細設定がJSONファイルとして保存されます。 ファイルは、別の接続の詳細設定にロードできます。
- JSONファイルを構成オプションテーブルに読み込むには、(アイコンを開く)をクリックします。
- [OK] をクリックして、Microsoft Azure HDInsight接続で Apache Sparkを作成します。