Apache Spark Direct
サポートのタイプ: | インデータベース |
検証済み: | アパッチ Livy 0.3;アパッチスパーク1.6、2.0、2.1、および2.2 |
以下で検証された分散: | Hortonworks 2.6+; Cloudera 5.7+ |
接続タイプ: | REST / HTMLサーバー |
サーバーの詳細: | Apache Livy ダウンロード情報はここで見つけることができます。 |
接続に使用されるAlteryxツール
- 接続(In-DB)ツール、 データストリームインツールそして アパッチスパークコードツール (インデータベースのワークフロー処理)
追加の詳細
connect In DB ツールまたは apache spark コードツールをキャンバスにドラッグして、apache spark に接続します。 Apache スパークダイレクトドライバを使用して、新しい Livy 接続を作成します。 接続を構成するには、以下の手順を使用します。
Livy 接続ウィンドウを構成する
Livy サーバーに接続し、Alteryx 接続文字列を作成するには:
新しい DB 接続を追加し、データソースをApache スパークダイレクトに設定します。 DB 接続の設定の詳細については、 接続(In-DB)ツール。
[読み取り] タブで、ドライバはApache スパークダイレクト にロックさ れます。 [接続文字列] ドロップダウン矢印をクリックし、[ 新しいデータベース接続] を選択します。
Livy 接続ウィンドウを構成します。
Livy サーバーの設定: セキュリティの設定を選択してください:
Apache Spark クラスター内の Livy ノードのホスト IP アドレスまたは DNS 名を入力または貼り付けます。
Livy で使用するポートを入力します。 デフォルトポートは8998です。
必要に応じて、ユーザーの偽装を設定するユーザー名、 Apache Spark がジョブを実行するときに使用する名前を指定します。
ノックスゲートウェイのURLを入力または貼り付けます。
指定し たゲートウェイに関連付けられているユーザー名とパスワードを入力します。
オプションで、接続をテストします。
- クラスタで使用するApache Spark のバージョンを選択します。
- Kerberos 接続の種類を選択します。
- テストをクリックします。
Apache Spark コードツールで使用するコーディング言語に接続モードを設定します。
クラスタとの通信に使用される HDFS プロトコルに一致するサーバー構成オプションを選択します。
Apache Spark クラスター内の HDFS 名ノードのホスト IP アドレスまたは DNS 名を入力します。
ポート番号を入力します。 デフォルトのポートが自動的に追加されます。
Apache Spark クラスター内の HDFS 名ノードのホスト IP アドレスまたは DNS 名を入力します。
ポート番号を入力します。 デフォルトのポートが自動的に追加されます。
ノックスゲートウェイのURLを入力または貼り付けます。
必要に応じて、 HDFS 接続のユーザー名を入力します。
必要に応じて、 HDFS 接続のパスワードを入力します。
使用する Kerberos プロトコルを選択します。
設定は、ポーリング間隔 (ミリ秒)、Apache のスパークコードの実行要求の Alteryx からのチェックの間の時間。 デフォルトは1,000ミリ秒、または1秒です。
Alteryx が実行要求を完了するまで待機する時間(ミリ秒)を設定します。 設定された待機時間より時間が長くかかると、タイムアウトエラーが発生します。 デフォルトは60,000 ms、つまり1分です。
apache spark 設定オプションは、作成された apache spark コンテキストをカスタマイズし、上級ユーザーがデフォルトの apache spark 設定を上書きできるようにします。
構成の既定値
既定では、構成オプションは spark です。 jar. パッケージと値はcom です。databricks: スパーク-csv_ 2.10: 1.5.0, databricks: avro_ 2.10: 2.0.1. Apache Spark のバージョンによっては、デフォルト値をオーバーライドする必要がある場合があります。
アパッチスパークバージョン | 値 |
---|---|
2.0 - 2.1 | com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0 |
2.2 | com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0 |
構成オプションテーブルに別の行を追加するには、(+アイコン)をクリックします。
(アイコンを保存)をクリックすると、現在の詳細設定がJSONファイルとして保存されます。 ファイルは、別の接続の詳細設定にロードできます。
JSONファイルを構成オプションテーブルに読み込むには、(アイコンを開く)をクリックします。
[ OK] を選択して Apache スパークダイレクトコネクションを作成します。