接続タイプ | REST/HTMLサーバー |
検証されたディストリビューション | Hortonworks 2.6、Cloudera 5.7 |
サーバーの詳細 | Apache Livyのダウンロード情報がここに見つかりました。 |
サポートのタイプ | インデータベース |
検証済み | Apache Livy 0.3、Apache Spark 1.6、2.0、2.1、2.2 |
接続In-DBツールまたはApache Sparkコードツールをキャンバスにドラッグして、Apache Sparkに接続します。Apache Spark Directドライバーを使用して、新しいLivy接続を作成します。接続を設定するには、次の手順を使用します。
Livyサーバーに接続してAlteryx接続文字列を作成するには、次の手順に従います。
新しいIn-DB接続を追加し、[ データ ソース ] を Apache Spark Direct に設定します。In-DB接続の設定の詳細については、「 接続In-DBツール 」を参照してください。
[ 読み取り ] タブで、 ドライバー が Apache Spark Direct にロックされます。[ 接続 文字列 ] ドロップダウン矢印をクリックし、[ 新しいデータベース接続 ] を選択します。
[ Livy 接続 ] ウィンドウを設定します。
セキュリティの優先度を選択します:
Apache Sparkクラスター内部で、Lilyノードの ホスト IPアドレスまたはDNS名を入力または貼り付けます。
Lilyが使用する ポート を入力します。既定ポートは8998です。
オプションで、 ユーザー 名 を入力してユーザー偽装、つまりApache Sparkがジョブの実行時に使用する名前を設定します。
Apache Sparkクラスター内でHDFS名ノード用の ホスト IPアドレスまたはDNS名を入力します。
ポート 番号を入力します。既定のポートが自動的に追加されます。
Apache Sparkクラスター内でHDFS名ノード用の ホスト IPアドレスまたはDNS名を入力します。
ポート 番号を入力します。既定のポートが自動的に追加されます。
Knoxゲートウェイの URL を入力または貼り付けます。
オプションで、HDFS接続用の ユーザー名 を入力します。
オプションで、HDFS接続用の パスワード を入力します。
使用するケルベロスプロトコルを選択します。
[ポーリング間隔(ミリ秒)] を設定します。これは、Apache Sparkコード実行要求のための、Alteryxからのチェック間隔です。既定は1,000ミリ秒、または1秒です。
Alteryxが実行要求が完了するまで待機する時間、つまり待機時間(ミリ秒)を設定します。操作時間が設定された待機時間を超えると、タイムアウトエラーが発生します。既定は60,000ミリ秒、つまり1分です。
Apache Spark設定オプションでは、作成されたApache Sparkコンテキストをカスタマイズでき、上級ユーザーは既定のApache Spark設定を上書きできます。
注記
デフォルトで、 構成オプションはspark.jars.packagesで 値 は com.databricks:spark-csv_2.10:1.5.0、com.databricks:spark-avro_2.10:2.0.1です。Apache Sparkのバージョンによっては、既定値の上書きが必要な場合があります。
Apache Sparkバージョン | 値 |
---|---|
2.0 - 2.1 | com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0 |
2.2 | com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0 |
設定オプションテーブルに別の行を追加するには、(+アイコン)を選択します。
(保存アイコン)を選択すると、現在の詳細設定がJSONファイルとして保存されます。ファイルは、別の接続の詳細設定にロードできます。
JSONファイルを設定オプションテーブルに読み込むには、(開くアイコン)を選択します。
[ OK ] を選択して、Apache Spark Direct接続を作成します。
現時点でAlteryxは、ネイティブのSparkをCloudera Data Platform (CDP)でサポートしていますが、Cloudera Distributed Hadoop (CDH)ではサポートしていません。
TLS/SSL対応のLivyサーバーはサポートされていません。