Apache Spark Direct

バージョン:
2023.1
Last modified: March 26, 2020

接続に使用される Alteryx ツール

インデータベースワークフロー処理

Link
Blue icon with database being plugged in.

接続In-DBツール

Link
Blue icon with a stream-like object flowing into a database.

データストリーム入力ツール

Link
Apache Spark Code Tool Icon

Apache Sparkコードツール

connect In DB ツールまたは apache spark コードツールをキャンバスにドラッグして、apache spark に接続します。Apache スパークダイレクトドライバを使用して、新しい Livy 接続を作成します。接続を構成するには、以下の手順を使用します。

Livy 接続ウィンドウを構成する

Livy サーバーに接続し、Alteryx 接続文字列を作成するには:

新しい DB 内接続を追加し、データソースApache Spark ダイレクトに設定します。DB 内接続のセットアップの詳細については、「DB 内接続ツールの接続」を参照してください。

[読み取り] タブで、ドライバApache スパークダイレクト にロックさ れます。[接続文字列]ドロップダウン矢印をクリックし、[新しいデータベース接続]を選択します。

[リビ接続]ウィンドウを設定します。

Livyサーバーの構成

セキュリティの優先度を選択します:

None
  • Apache Spark クラスター内の Livy ノードのホストIP アドレスまたは DNS 名を入力または貼り付けます。
  • Livy で使用するポートを入力します。デフォルトポートは8998です。
  • 必要に応じて、ユーザーの偽装を設定するユーザー(Apache Spark がジョブの実行時に使用する名前) を指定します。
Knox
  • ノックスゲートウェイのURLを入力または貼り付けます。
  • 指定したゲートウェイに関連付けられたユーザーパスワードを入力します。

必要に応じて接続をテストします。

  • クラスターで使用するApache Spark バージョンを選択します。
  • Kerberos 接続の種類を選択します。
  • テストをクリックします。

Apache Spark コード ツールで使用するコーディング言語に接続モードを設定します。

HDFS接続

クラスタとの通信に使用する HDFS プロトコルに一致するサーバー構成オプションを選択します。

HTTPFS

Apache Spark クラスター内の HDFS 名ノードのホスト IP アドレスまたは DNS 名を入力します。
ポート番号を入力します。デフォルトのポートが自動的に追加されます。

WebHDFS

Apache Spark クラスター内の HDFS 名ノードのホスト IP アドレスまたは DNS 名を入力します。
ポート番号を入力します。デフォルトのポートが自動的に追加されます。

Knox ゲートウェイ

ノックスゲートウェイのURLを入力または貼り付けます。

必要に応じて、 HDFS 接続のユーザー名を入力します。

必要に応じて、 HDFS 接続のパスワードを入力します。

使用する Kerberos プロトコルを選択します。

詳細オプション

設定は、ポーリング間隔 (ミリ秒)、Apache のスパークコードの実行要求の Alteryx からのチェックの間の時間。デフォルトは1,000ミリ秒、または1秒です。

Alteryxが実行要求が完了するまで待機する時間、つまり待機時間(ミリ秒)を設定します。設定された待機時間より時間が長くかかると、タイムアウトエラーが発生します。デフォルトは60,000 ms、つまり1分です。

apache spark 設定オプションは、作成された apache spark コンテキストをカスタマイズし、上級ユーザーがデフォルトの apache spark 設定を上書きできるようにします。

デフォルトで、構成オプションはspark.jars.packagesで 値 は com.databricks:spark-csv_2.10:1.5.0、com.databricks:spark-avro_2.10:2.0.1です。Apache Spark のバージョンによっては、デフォルト値をオーバーライドする必要がある場合があります。

アパッチスパークバージョン
2.0 - 2.1 com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0
2.2 com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0
  • 構成オプションテーブルに別の行を追加するには、(+アイコン)をクリックします。
  • (アイコンを保存)をクリックすると、現在の詳細設定がJSONファイルとして保存されます。ファイルは、別の接続の詳細設定にロードできます。
  • JSONファイルを構成オプションテーブルに読み込むには、(アイコンを開く)をクリックします。

[ OK] を選択して Apache スパークダイレクトコネクションを作成します。

このページは役に立ちましたか?

Alteryx 製品のご利用中に何か問題がございましたら、Alteryx コミュニティにアクセスするか、サポートにお問い合わせください。このフォームを送信できない場合E メールでお送りください。