Apache Spark on Microsoft Azure HDInsight
接続タイプ | REST/HTMLサーバー |
検証されたディストリビューション | Microsoft Azure HDInsight |
サーバーの詳細 | Microsoft Azureの情報については、 こちら を参照してください。 |
サポートのタイプ | インデータベース |
検証済み | Spark 2.1、ADLS Gen1ストレージ |
接続に使用する Alteryx ツール
In-database Workflow Processing
追加の詳細
[ Microsoft Azure HDInsight接続 ] ウィンドウで、Microsoft Azure HDInsightオプションを使用して、Microsoft Azure HDInsightへの新しい接続を作成します。接続を設定するには、次の手順を使用します。
Microsoft Azure HDInsight接続ウィンドウの設定
Microsoft Azure HDInsightに接続してAlteryx接続文字列を作成するには、次の手順に従います。
新しいIn-DB接続を追加します。 Microsoft Azure HDInsight で [ データソース ] を Apache Spark に設定します。In-DB接続の設定の詳細については、 接続In-DBツール を参照してください。
[ 読み取り ] タブで、[ ドライバー ] が Apache Spark on Microsoft Azure HDInsight に設定されています。[ 接続文字列 ] ドロップダウン矢印を選択し、[ 新しいデータベース接続 ] を選択します。
[ Microsoft Azure HDInsight接続 ] ウィンドウを設定します。
Microsoft Azure HDInsightの設定
Azure URL .を設定します。
Microsoft Azure HDInsight接続の Azure URL を入力または貼り付けます。例: https://<clustername>.azurehdinsight.net/
接続に関連付けられた ユーザー名 と パスワード を入力します。
管理者に連絡して、Microsoft Azure HDInsightクラスターのセットアップ時に設定したクラスター管理者ユーザーのユーザー名とパスワードを確認します。
お使いのクラスターが使用する Apache Sparkバージョン を選択します。
[ テスト ] を選択して、接続をテストします。
接続モードをApache Spark Codeツールで使用するコーディング言語に設定します。
Microsoft Azureストレージアカウントに接続します。
Azure ストレージ
接続で使用するストレージ(ADL Gen1ストレージ)の [ ストレージURL ] を入力します。このURLにはHTTPSプロトコルが必要です。
[ テナントID GUID ] を入力します。これは、[Microsoft Azure Active Directory] > [プロパティ] > [ディレクトリID] の下のプロパティにあります。
[ クライアント ID ] を入力します。Microsoft Azureでは、この情報はアプリケーションIDとも呼ばれます。これは、[Microsoft Azure Active Directory] > [アプリの登録] の下のプロパティにあります。詳細については、 Microsoftドキュメント > 「Get application ID and authentication key (アプリケーションIDと認証キーを取得する)」 のページを参照してください。
[ クライアントシークレット ] を入力します。Microsoft Azureでは、この情報はアプリケーションIDから認証キー文字列として生成されます。詳細については、「 Microsoft Azure Integrating applications with Azure Active Directory (Microsoft Azure: アプリケーションとAzure Active Directoryの統合) 」ページを参照してください。
詳細オプション
[ ポーリング間隔(ミリ秒) ] を設定します。これは、Apache Sparkコード実行要求のための、Alteryxからのチェック間隔です。既定は1,000ミリ秒、または1秒です。
[ 待機時間(ミリ秒) ] を設定します。これは、実行要求が完了するまでAlteryxが待機する時間です。設定された待機時間より時間が長くかかると、タイムアウトエラーが発生します。既定は60,000 ms、つまり1分です。
Apache Spark設定オプション では、作成されたApache Sparkコンテキストをカスタマイズでき、上級ユーザーは既定のApache Spark設定を上書きできます。
注記
既定で、 構成オプションはspark.jars.packagesで 値 は com.databricks:spark-csv_2.10:1.5.0、com.databricks:spark-avro_2.10:2.0.1です。Apache Sparkのバージョンによっては、既定値の上書きが必要な場合があります。
Apache Sparkバージョン | 値 |
---|---|
2.0 - 2.1 |
|
2.2 |
|
設定オプションテーブルに別の行を追加するには、[+] アイコンを選択します。
保存アイコンを選択すると、現在の詳細設定がJSONファイルとして保存されます。ファイルは、別の接続の詳細設定にロードできます。
JSONファイルを設定オプションテーブルに読み込むには、開くアイコンを選択します。
[ OK ] を選択し、 Apache Spark on Microsoft Azure HDInsight 接続を作成します。