Skip to main content

Apache Spark on Databricks

接続タイプ

REST/HTMLサーバー

検証されたディストリビューション

Databricks

サーバーの詳細

Databricksの情報については、 こちら を参照してください。

サポートのタイプ

インデータベース

検証済み

ODBCクライアントバージョン: 2.6.23.1039

接続に使用する Alteryx ツール

In-database Workflow Processing

Connect to Apache Spark by dragging a Connect In-DB tool or the Apache Spark Code tool onto the canvas. Create a new Livy connection using the Apache Spark Direct driver. Use the instructions below to configure the connection.

Databricks接続ウィンドウの設定

Databricksに接続してAlteryx接続文字列を作成するには、次の手順に従います。

  1. [ アカウントID ] または [ 地域 ] を入力します。

    • AWS でホストされているDatabricksの場合は、[ DatabricksアカウントID ] を入力します。DatabricksアカウントコンソールでアカウントIDを取得するには、右上のユーザー名の横にある下向き矢印を選択します。

    • Azure でホストされているDatabricksの場合は、[ 地域 ] を入力します。地域とは、Azureデータセンターの場所です。これは、Databricks管理者が提供できます。

  2. Databricksユーザー設定で生成したDatabricksの トークン を貼り付けます。トークンは有効期限が切れたり、失効したりすることがあります。

  3. 接続 を選択します。Designerに、接続先のDatabricksクラスターのリストが表示されます。接続に失敗した場合は、資格情報をもう一度入力してみてください。

  4. 接続先のDatabricks クラスター を選択します。

  5. [ セッション タイプ ] を選択します。記述するコードに応じて、次のいずれかを選択します。

    • Scala

    • Python

    • R

  6. 必要に応じて、後で分かりやすいように、ジョブを説明する [ 実行 ] を入力します。実行名は、サーバー上のジョブを区別するのに役立ちます。空白のままにすると、既定の名前は「Untitled」になります。

  7. [ タイムアウト ] を分単位で設定します。これは、アクティビティがない状態が継続するとジョブが停止する時間(分)です。15分と入力した場合、アクティビティがないアイドル状態が15分間継続すると、ジョブがタイムアウトします。詳細については、 Databricksのドキュメント を参照してください。

  8. すでに提供されているライブラリのセットに加えて、 ライブラリ を追加すると、独自のコードを記述できます。

    ファイルの種類

    説明

    jar

    Java ARchive

    egg

    Python関連プロジェクト用の、単一ファイルのインポート可能なディストリビューション形式。

    PyPi

    Python Package Indexは、Python用のソフトウェアリポジトリです。

    Maven

    ファイルとアーティファクトのリポジトリ。

    CRAN

    Rファイルパッケージ

    [ + ] アイコンを選択して、行を追加します。[ 保存 ] を選択して、ライブラリの設定をファイルに保存します。[ ファイル ] フォルダー アイコン を使用して、保存されている設定ファイルを検索します。行を削除するには、その行にカーソルを合わせて、ごみ箱アイコンを選択します。

  9. [ Databricks 接続 ] で、[ OK ] を選択します。

  10. [ In-DB 接続の管理 ] で、[ OK ] を選択し、Alteryx接続文字列を作成します。