Apache Spark Direct

接続タイプ	REST/HTMLサーバー
検証されたディストリビューション	Hortonworks 2.6、Cloudera 5.7
サーバーの詳細	Apache Livyのダウンロード情報がここに見つかりました。
サポートのタイプ	インデータベース
検証済み	Apache Livy 0.3、Apache Spark 1.6、2.0、2.1、2.2

接続に使用する Alteryx ツール

インデータベースのワークフロー処理

接続In-DB ツール	データストリーム入力ツール
Apache Sparkコードツール

接続In-DBツールまたはApache Sparkコードツールをキャンバスにドラッグして、Apache Sparkに接続します。Apache Spark Directドライバーを使用して、新しいLivy接続を作成します。接続を設定するには、次の手順を使用します。

Livy接続ウィンドウの設定

Livyサーバーに接続してAlteryx接続文字列を作成するには、次の手順に従います。

新しいIn-DB接続を追加し、[ データ ソース ] を Apache Spark Direct に設定します。In-DB接続の設定の詳細については、「接続In-DBツール」を参照してください。

[ 読み取り ] タブで、 ドライバー が Apache Spark Direct にロックされます。[ 接続 文字列 ] ドロップダウン矢印をクリックし、[ 新しいデータベース接続 ] を選択します。

[ Livy 接続 ] ウィンドウを設定します。

Livy サーバーの構成

セキュリティの優先度を選択します：

なし

Apache Sparkクラスター内部で、Lilyノードの ホスト IPアドレスまたはDNS名を入力または貼り付けます。
Lilyが使用する ポート を入力します。既定ポートは8998です。
オプションで、 ユーザー 名を入力してユーザー偽装、つまりApache Sparkがジョブの実行時に使用する名前を設定します。

Knox

Knoxゲートウェイの URL を入力または貼り付けます。
指定したゲートウェイに関連付けられた ユーザー 名と パスワード を入力します。

オプションで、接続をテストします。

お使いのクラスターが使用する Apache Spark バージョン を選択します。
ケルベロス接続タイプを選択します。
[ テスト ] を選択します。

[ 接続 モード ] を、Apache Spark Codeツールで使用するコーディング言語に設定します。

HDFS接続

クラスターとのコミュニケーションに使用されるHDFSプロトコルと一致する サーバー 設定オプションを選択します。

HTTPFS

Apache Sparkクラスター内でHDFS名ノード用の ホスト IPアドレスまたはDNS名を入力します。
ポート 番号を入力します。既定のポートが自動的に追加されます。

WebHDFS

Apache Sparkクラスター内でHDFS名ノード用の ホスト IPアドレスまたはDNS名を入力します。
ポート 番号を入力します。既定のポートが自動的に追加されます。

Knox ゲートウェイ

Knoxゲートウェイの URL を入力または貼り付けます。

オプションで、HDFS接続用の ユーザー名 を入力します。

オプションで、HDFS接続用の パスワード を入力します。

使用するケルベロスプロトコルを選択します。

詳細オプション

[ポーリング間隔(ミリ秒)] を設定します。これは、Apache Sparkコード実行要求のための、Alteryxからのチェック間隔です。既定は1,000ミリ秒、または1秒です。

Alteryxが実行要求が完了するまで待機する時間、つまり待機時間(ミリ秒)を設定します。操作時間が設定された待機時間を超えると、タイムアウトエラーが発生します。既定は60,000ミリ秒、つまり1分です。

Apache Spark設定オプションでは、作成されたApache Sparkコンテキストをカスタマイズでき、上級ユーザーは既定のApache Spark設定を上書きできます。

注記

デフォルトで、構成オプションはspark.jars.packagesで値は com.databricks：spark-csv_2.10:1.5.0、com.databricks：spark-avro_2.10:2.0.1です。Apache Sparkのバージョンによっては、既定値の上書きが必要な場合があります。

Apache Sparkバージョン	値
2.0 - 2.1	com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0
2.2	com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0

設定オプションテーブルに別の行を追加するには、(+アイコン)を選択します。
(保存アイコン)を選択すると、現在の詳細設定がJSONファイルとして保存されます。ファイルは、別の接続の詳細設定にロードできます。
JSONファイルを設定オプションテーブルに読み込むには、(開くアイコン)を選択します。

[ OK ] を選択して、Apache Spark Direct接続を作成します。

制限事項

現時点でAlteryxは、ネイティブのSparkをCloudera Data Platform (CDP)でサポートしていますが、Cloudera Distributed Hadoop (CDH)ではサポートしていません。

TLS/SSL対応のLivyサーバーはサポートされていません。