Spark Codeツールは、Sparkコンテキストを作成し、SparkコマンドをDesignerから直接実行するコードエディタです。
この機能はベータ状態です。 すべての関連ツール、機能、またはドキュメントが開発中です。
追加情報については、Spark Directを参照してください。 。
Sparkクラスターに直接接続してください。
または、Spark Codeツールで直接接続してください。
どちらのメソッドでも管理(In-DB接続)ウィンドウが表示されます。
新しいIn-DB接続を追加し、データソースをSpark Directに設定します。
In-DB接続の設定の詳細については、接続(In-DB)ツールを参照してください。
読み込みタブで、 ドライバはSpark Directにロックされます。 接続文字列 ドロップダウン矢印をクリックし、新しいデータベース接続を選択します。
LIvy接続ウィンドウを構成します。
Sparkクラスター内部で、LilyノードのホストIPアドレスまたはDNS名を入力または貼り付けます。
Lilyが使用するポートを入力します。
デフォルトポートは8998です。
オプションで、ユーザー名を入力してユーザー偽装、つまりSparkがジョブの実行時に使用する名前を設定します。
オプションで、接続をテストします。
接続モードをSpark Codeツールで使用するコーディング言語に設定します。
クラスターとのコミュニケーションに使用されるHDFSプロトコルに一致するサーバー構成オプションを選択します。
Sparkクラスター内でHDFS名ノード用のホストIPアドレスまたはDNS名を入力します。
ポート番号を入力します。 デフォルトのポートが自動的に追加されます。
オプションで、HDFS接続用のユーザー名を入力します。
オプションで、HDFS接続用のパスワードを入力します。
使用するケルベロスプロトコルを選択します。
Sparkコード実行要求のためにAlteryxからのチェックとチェックの間の時間、(つまりポーリング間隔ミリ秒)を設定します。 デフォルトは1,000ミリ秒、または1秒です。
Alteryxが実行要求が完了するまで待機する時間、つまり待機時間(ミリ秒)を設定します。 設定された待機時間より時間が長くかかると、タイムアウトエラーが発生します。 デフォルトは60,000 ms、つまり1分です。
Spark構成オプションは作成されたSparkコンテキストをカスタマイズし、上級ユーザーがデフォルトのSpark設定を無効にできるようにします。
デフォルトで、 構成オプションはspark.jars.packagesで 値 は com.databricks:spark-csv_2.10:1.5.0、com.databricks:spark-avro_2.10:2.0.1です。 Spark 2を使用している場合、 値を com.databricks:spark-avro_2.11:3.2.0; com.databricks:spark-csv_2.11:1.5.0に変更してください。
構成オプションテーブルに別の行を追加するには、(+アイコン)をクリックします。
(アイコンを保存)をクリックすると、現在の詳細設定がJSONファイルとして保存されます。 ファイルは、別の接続の詳細設定にロードできます。
JSONファイルを構成オプションテーブルに読み込むには、(アイコンを開く)をクリックします。
OKを選択して、Spark Direct接続を作成します。
Spark Direct接続が確立されると、 コードエディタがアクティブになります。
コードを挿入を使用して、コードエディタでテンプレート関数を生成します。
ライブラリのインポートは、インポートステートメントを作成します。
インポートパッケージ
データの読み込みは、readAlteryxData関数を作成して、着信データをSparkSQL DataFrameとして返します。
val dataFrame = readAlteryxData(1)
データの書き込みはwriteAlteryxData関数を作成してSparkSQL DataFrameを出力します。
writeAlteryxData(dataFrame、1)
ログメッセージはlogAlteryxMessage関数を作成し、 文字列をメッセージとしてログに書き込みます。
logAlteryxMessage(「メッセージ例」)
ログの警告はlogAlteryxWarning関数を作成し、 警告として文字列をログに書き込むみます。
logAlteryxWarning(「警告の例」)
ログエラーはlogAlteryxError関数を作成し、 文字列をエラーとしてログに書き込みます。
logAlteryxError(「エラー例」)
ライブラリのインポートは、インポートステートメントを作成します。
モジュールインポートライブラリから
データの読み込みは、readAlteryxData関数を作成して、着信データをSparkSQL DataFrameとして返します。
dataFrame = readAlteryxData(1)
データの書き込みはwriteAlteryxData関数を作成してSparkSQL DataFrameを出力します。
writeAlteryxData(dataFrame、1)
ログメッセージはlogAlteryxMessage関数を作成し、 文字列をメッセージとしてログに書き込みます。
logAlteryxMessage(「メッセージ例」)
ログの警告はlogAlteryxWarning関数を作成し、 警告として文字列をログに書き込むみます。
logAlteryxWarning(「警告の例」)
ログエラーはlogAlteryxError関数を作成し、 文字列をエラーとしてログに書き込みます。
logAlteryxError(「エラー例」)
ライブラリのインポートは、インポートステートメントを作成します。
ライブラリ(jsonlite)
データの読み込みは、readAlteryxData関数を作成して、着信データをSparkSQL DataFrameとして返します。
dataFrame <- readAlteryxData(1)
データの書き込みはwriteAlteryxData関数を作成してSparkSQL DataFrameを出力します。
writeAlteryxData(dataFrame、1)
ログメッセージはlogAlteryxMessage関数を作成し、 文字列をメッセージとしてログに書き込みます。
logAlteryxMessage(「メッセージ例」)
ログの警告はlogAlteryxWarning関数を作成し、 警告として文字列をログに書き込むみます。
logAlteryxWarning(「警告の例」)
ログエラーはlogAlteryxError関数を作成し、 文字列をエラーとしてログに書き込みます。
logAlteryxError(「エラー例」)
コードのインポートを使用して、外部で作成されたコードを引き込みます。
歯車アイコンをクリックすると、コードエディタの表示面が変更されます。
管理する出力チャネルのメタ情報を選択します。
既存データのSparkデータ型を手動で変更します。
データ行を追加するには、プラスアイコンをクリックします。
© Alteryx, Inc All Rights Reserved Allocate®、Alteryx®、 Guzzler®、Solocast®はAlteryx, Inc.の登録商標です。