Apache Spark on Databricks

Version:
Current
Last modified: April 02, 2020

接続に使用される Alteryx ツール

インデータベースワークフロー処理

Link
Blue icon with database being plugged in.

接続In-DBツール

Link
Blue icon with a stream-like object flowing into a database.

データストリーム入力ツール

Link
Apache Spark Code Tool Icon

アパッチスパークコードツール

connect In DB ツールまたは apache spark コードツールをキャンバスにドラッグして、apache spark に接続します。Databricks ドライバの Apache Spark を使用して、Databricks への新しい接続を作成します。接続を構成するには、以下の手順を使用します。詳細については、データブリックのドキュメントを参照してください。

Databricks 接続ウィンドウを構成する

Databricks に接続し、Alteryx 接続文字列を作成するには:

  1. データブリックアカウントIDを入力します。
  2. データブリックのユーザー設定で生成したデータブリックトークンを貼り付けます。トークンの有効期限が切れて失効することができます。
  3. [接続]をクリックします。デザイナーに接続する Databricks クラスターの一覧が表示されます。接続に失敗した場合は、資格情報を再度入力してください。
  4. 接続するデータブリッククラスタを選択します。
  5. セッションの種類を選択します。作成するコードに応じて、次のいずれかを選択します。
    • Scala
    • Python
    • R
  6. 必要に応じて、後で識別できるように、ジョブのわかりやすいRun を入力します。実行名は、ユーザーがサーバー上の別のジョブと区別するのに役立ちます。空白のままにすると、名前はデフォルトで[無題]に設定されます。
  7. タイムアウトを分数で設定します。これは、ジョブが停止するまでの非活動時間の分数です。15分を入力すると、ジョブはタイムアウトするまで15分間、何も動作せずにアイドル状態に座ることができます。詳細については、データブリックのドキュメントを参照してください。
  8. 独自のコードを記述するために既に提供されているライブラリのセットに加えて、ライブラリを追加します。

     

    ファイルの種類

    説明

    ジャワのアーカイブ

    Python 関連プロジェクトの単一ファイルインポート配布フォーマット

    PyPi

    python パッケージインデックスは python 用ソフトウェアのリポジトリです。

    Maven

    ファイルとアーティファクトのリポジトリ。

    クラン

    R ファイルパッケージ

    "+" アイコンをクリックして行を追加します。ライブラリ構成設定をファイルに保存するには、[保存]をクリックします。[ファイルフォルダ] アイコンを使用して、保存された構成ファイルを検索します。行を削除するには、それにカーソルを合わせ、[ゴミ箱] アイコンを選択します。

  9. [データブリック接続]で、[OK]をクリックします。
  10. [DB内接続管理] で、[OK]をクリックして Alteryx 接続文字列を作成します。 
Was This Helpful?

Running into problems or issues with your Alteryx product? Visit the Alteryx Community or contact support.