Skip to main content

Apache Spark Direct

接続タイプ

REST/HTMLサーバー

検証されたディストリビューション

Hortonworks 2.6、Cloudera 5.7

サーバーの詳細

Apache Livyのダウンロード情報がここに見つかりました。

サポートのタイプ

インデータベース

検証済み

Apache Livy 0.3、Apache Spark 1.6、2.0、2.1、2.2

接続に使用する Alteryx ツール

インデータベースのワークフロー処理

Blue icon with database being plugged in.
Blue icon with a stream-like object flowing into a database.
Apache Spark Code Tool Icon

接続In-DBツールまたはApache Sparkコードツールをキャンバスにドラッグして、Apache Sparkに接続します。Apache Spark Directドライバーを使用して、新しいLivy接続を作成します。接続を設定するには、次の手順を使用します。

Livy接続ウィンドウの設定

Livyサーバーに接続してAlteryx接続文字列を作成するには、次の手順に従います。

新しいIn-DB接続を追加し、[ データ ソース ] を Apache Spark Direct に設定します。In-DB接続の設定の詳細については、「 接続In-DBツール 」を参照してください。

[ 読み取り ] タブで、 ドライバー Apache Spark Direct にロックされます。[ 接続 文字列 ] ドロップダウン矢印をクリックし、[ 新しいデータベース接続 ] を選択します。

[ Livy 接続 ] ウィンドウを設定します。

Livy サーバーの構成

セキュリティの優先度を選択します:

  • Apache Sparkクラスター内部で、Lilyノードの ホスト IPアドレスまたはDNS名を入力または貼り付けます。

  • Lilyが使用する ポート を入力します。既定ポートは8998です。

  • オプションで、 ユーザー を入力してユーザー偽装、つまりApache Sparkがジョブの実行時に使用する名前を設定します。

  • Knoxゲートウェイの URL を入力または貼り付けます。

  • 指定したゲートウェイに関連付けられた ユーザー パスワード を入力します。

オプションで、接続をテストします。

  • お使いのクラスターが使用する Apache Spark バージョン を選択します。

  • ケルベロス接続タイプを選択します。

  • [ テスト ] を選択します。

[ 接続 モード ] を、Apache Spark Codeツールで使用するコーディング言語に設定します。

HDFS接続

クラスターとのコミュニケーションに使用されるHDFSプロトコルと一致する サーバー 設定 オプションを選択します。

  • Apache Sparkクラスター内でHDFS名ノード用の ホスト IPアドレスまたはDNS名を入力します。

  • ポート 番号を入力します。既定のポートが自動的に追加されます。

  • Apache Sparkクラスター内でHDFS名ノード用の ホスト IPアドレスまたはDNS名を入力します。

  • ポート 番号を入力します。既定のポートが自動的に追加されます。

Knoxゲートウェイの URL を入力または貼り付けます。

オプションで、HDFS接続用の ユーザー名 を入力します。

オプションで、HDFS接続用の パスワード を入力します。

使用するケルベロスプロトコルを選択します。

詳細オプション

[ポーリング間隔(ミリ秒)] を設定します。これは、Apache Sparkコード実行要求のための、Alteryxからのチェック間隔です。既定は1,000ミリ秒、または1秒です。

Alteryxが実行要求が完了するまで待機する時間、つまり待機時間(ミリ秒)を設定します。操作時間が設定された待機時間を超えると、タイムアウトエラーが発生します。既定は60,000ミリ秒、つまり1分です。

Apache Spark設定オプションでは、作成されたApache Sparkコンテキストをカスタマイズでき、上級ユーザーは既定のApache Spark設定を上書きできます。

注記

デフォルトで、 構成オプションはspark.jars.packagesで 値 は com.databricks:spark-csv_2.10:1.5.0、com.databricks:spark-avro_2.10:2.0.1です。Apache Sparkのバージョンによっては、既定値の上書きが必要な場合があります。

Apache Sparkバージョン

2.0 - 2.1

com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0

2.2

com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0

  • 設定オプションテーブルに別の行を追加するには、(+アイコン)を選択します。

  • (保存アイコン)を選択すると、現在の詳細設定がJSONファイルとして保存されます。ファイルは、別の接続の詳細設定にロードできます。

  • JSONファイルを設定オプションテーブルに読み込むには、(開くアイコン)を選択します。

[ OK ] を選択して、Apache Spark Direct接続を作成します。

制限事項

現時点でAlteryxは、ネイティブのSparkをCloudera Data Platform (CDP)でサポートしていますが、Cloudera Distributed Hadoop (CDH)ではサポートしていません。

TLS/SSL対応のLivyサーバーはサポートされていません。