Apache Spark on Databricks

Databricks に接続し、Alteryx 接続文字列を作成する方法については、次の手順を参照してください。

サポートのタイプ: インデータベース
検証済み: アパッチスパーク2.0、2.1、および2.2
以下で検証された分散: Databricks
接続タイプ: REST / HTMLサーバー
サーバーの詳細: Databricks 情報はここで見つけることができます。

接続に使用されるAlteryxツール

追加の詳細

connect In DB ツールまたは apache spark コードツールをキャンバスにドラッグして、apache spark に接続します。 Databricks ドライバの Apache Spark を使用して、Databricks への新しい接続を作成します。 接続を構成するには、以下の手順を使用します。 詳細については、Databricks のドキュメントを参照してください。

Databricks 接続ウィンドウを構成する

Databricks に接続し、Alteryx 接続文字列を作成するには:

  1. Databricks アカウント ID を入力します。
  2. Databricks ユーザー設定で生成した Databricks トークンを貼り付けます。 トークンの有効期限が切れて失効することができます。
  3. 接続 をクリックします。 デザイナーに接続する Databricks クラスターの一覧が表示されます。 接続に失敗した場合は、資格情報を再度入力してください。
  4. 接続するDatabricks クラスタを選択します。
  5. セッションの種類を選択します。 作成するコードに応じて、次のいずれかを選択します。
    • Scala
    • Python
    • R
  6. 必要に応じて、ジョブの説明的な実行名を入力して、後で識別できるようにします。 実行名は、ユーザーがサーバー上の別のジョブと区別するのに役立ちます。 空白のままの場合、名前は既定で無題になります。
  7. タイムアウトを分単位で設定します。 これは、ジョブが停止するまでの非活動時間の分数です。 15分を入力すると、ジョブはタイムアウトするまで15分間、何も動作せずにアイドル状態に座ることができます。 詳細については、Databricks のドキュメントを参照してください。
  8. 独自のコードを記述するために既に用意されているライブラリのセットに加えて、ライブラリを追加します。

    ファイルの種類

    説明

    ジャワのアーカイブ

    Python 関連プロジェクトの単一ファイルインポート配布フォーマット

    PyPi

    python パッケージインデックスは python 用ソフトウェアのリポジトリです。

    Maven

    ファイルとアーティファクトのリポジトリ。

    クラン

    R ファイルパッケージ

  9. "+" アイコンをクリックして行を追加します。 [保存] をクリックして 、ライブラリ構成設定をファイルに保存します。 [ファイルフォルダ] アイコンを使用して、保存した構成ファイルを検索します。 行を削除するには、それにカーソルを合わせ、[ゴミ箱] アイコンを選択します。

  10. Databricks 接続で、[OK] をクリックします。
  11. [データベース内接続の管理] で、[OK] をクリックして Alteryx 接続文字列を作成します。