Apache Spark Direct
接続に使用される Alteryx ツール
インデータベースワークフロー処理
connect In DB ツールまたは apache spark コードツールをキャンバスにドラッグして、apache spark に接続します。Apache スパークダイレクトドライバを使用して、新しい Livy 接続を作成します。接続を構成するには、以下の手順を使用します。
Livy 接続ウィンドウを構成する
Livy サーバーに接続し、Alteryx 接続文字列を作成するには:
新しい DB 内接続を追加し、データソースをApache Spark ダイレクトに設定します。DB 内接続のセットアップの詳細については、「DB 内接続ツールの接続」を参照してください。
[読み取り] タブで、ドライバはApache スパークダイレクト にロックさ れます。[接続文字列]ドロップダウン矢印をクリックし、[新しいデータベース接続]を選択します。
[リビ接続]ウィンドウを設定します。
Livyサーバーの構成
セキュリティの優先度を選択します:
必要に応じて接続をテストします。
- クラスターで使用するApache Spark バージョンを選択します。
- Kerberos 接続の種類を選択します。
- テストをクリックします。
Apache Spark コード ツールで使用するコーディング言語に接続モードを設定します。
HDFS接続
クラスタとの通信に使用する HDFS プロトコルに一致するサーバー構成オプションを選択します。
Apache Spark クラスター内の HDFS 名ノードのホスト IP アドレスまたは DNS 名を入力します。
ポート番号を入力します。デフォルトのポートが自動的に追加されます。
Apache Spark クラスター内の HDFS 名ノードのホスト IP アドレスまたは DNS 名を入力します。
ポート番号を入力します。デフォルトのポートが自動的に追加されます。
ノックスゲートウェイのURLを入力または貼り付けます。
必要に応じて、 HDFS 接続のユーザー名を入力します。
必要に応じて、 HDFS 接続のパスワードを入力します。
使用する Kerberos プロトコルを選択します。
詳細オプション
設定は、ポーリング間隔 (ミリ秒)、Apache のスパークコードの実行要求の Alteryx からのチェックの間の時間。デフォルトは1,000ミリ秒、または1秒です。
Alteryxが実行要求が完了するまで待機する時間、つまり待機時間(ミリ秒)を設定します。設定された待機時間より時間が長くかかると、タイムアウトエラーが発生します。デフォルトは60,000 ms、つまり1分です。
apache spark 設定オプションは、作成された apache spark コンテキストをカスタマイズし、上級ユーザーがデフォルトの apache spark 設定を上書きできるようにします。
デフォルトで、構成オプションはspark.jars.packagesで 値 は com.databricks:spark-csv_2.10:1.5.0、com.databricks:spark-avro_2.10:2.0.1です。Apache Spark のバージョンによっては、デフォルト値をオーバーライドする必要がある場合があります。
アパッチスパークバージョン | 値 |
---|---|
2.0 - 2.1 | com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0 |
2.2 | com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0 |
- 構成オプションテーブルに別の行を追加するには、(+アイコン)をクリックします。
- (アイコンを保存)をクリックすると、現在の詳細設定がJSONファイルとして保存されます。ファイルは、別の接続の詳細設定にロードできます。
- JSONファイルを構成オプションテーブルに読み込むには、(アイコンを開く)をクリックします。
[ OK] を選択して Apache スパークダイレクトコネクションを作成します。