Apache Spark on Databricks
接続タイプ | REST/HTMLサーバー |
検証されたディストリビューション | Databricks |
サーバーの詳細 | Databricksの情報については、 こちら を参照してください。 |
サポートのタイプ | インデータベース |
検証済み | ODBCクライアントバージョン: 2.6.23.1039 |
接続に使用する Alteryx ツール
In-database Workflow Processing
Connect to Apache Spark by dragging a Connect In-DB tool or the Apache Spark Code tool onto the canvas. Create a new Livy connection using the Apache Spark Direct driver. Use the instructions below to configure the connection.
Databricks接続ウィンドウの設定
Databricksに接続してAlteryx接続文字列を作成するには、次の手順に従います。
[ アカウントID ] または [ 地域 ] を入力します。
AWS でホストされているDatabricksの場合は、[ DatabricksアカウントID ] を入力します。DatabricksアカウントコンソールでアカウントIDを取得するには、右上のユーザー名の横にある下向き矢印を選択します。
Azure でホストされているDatabricksの場合は、[ 地域 ] を入力します。地域とは、Azureデータセンターの場所です。これは、Databricks管理者が提供できます。
Databricksユーザー設定で生成したDatabricksの トークン を貼り付けます。トークンは有効期限が切れたり、失効したりすることがあります。
接続 を選択します。Designerに、接続先のDatabricksクラスターのリストが表示されます。接続に失敗した場合は、資格情報をもう一度入力してみてください。
接続先のDatabricks クラスター を選択します。
[ セッション タイプ ] を選択します。記述するコードに応じて、次のいずれかを選択します。
Scala
Python
R
必要に応じて、後で分かりやすいように、ジョブを説明する [ 実行 名 ] を入力します。実行名は、サーバー上のジョブを区別するのに役立ちます。空白のままにすると、既定の名前は「Untitled」になります。
[ タイムアウト ] を分単位で設定します。これは、アクティビティがない状態が継続するとジョブが停止する時間(分)です。15分と入力した場合、アクティビティがないアイドル状態が15分間継続すると、ジョブがタイムアウトします。詳細については、 Databricksのドキュメント を参照してください。
すでに提供されているライブラリのセットに加えて、 ライブラリ を追加すると、独自のコードを記述できます。
ファイルの種類
説明
jar
Java ARchive
egg
Python関連プロジェクト用の、単一ファイルのインポート可能なディストリビューション形式。
PyPi
Python Package Indexは、Python用のソフトウェアリポジトリです。
Maven
ファイルとアーティファクトのリポジトリ。
CRAN
Rファイルパッケージ
[ + ] アイコンを選択して、行を追加します。[ 保存 ] を選択して、ライブラリの設定をファイルに保存します。[ ファイル ] フォルダー アイコン を使用して、保存されている設定ファイルを検索します。行を削除するには、その行にカーソルを合わせて、ごみ箱アイコンを選択します。
[ Databricks 接続 ] で、[ OK ] を選択します。
[ In-DB 接続の管理 ] で、[ OK ] を選択し、Alteryx接続文字列を作成します。