Apache Spark on Databricks

接続タイプ	REST/HTMLサーバー
検証されたディストリビューション	Databricks
サーバーの詳細	Databricksの情報については、こちらを参照してください。
サポートのタイプ	インデータベース
検証済み	ODBCクライアントバージョン: 2.6.23.1039

接続に使用する Alteryx ツール

インデータベースのワークフロー処理

接続In-DB ツール	データストリーム入力ツール
Apache Sparkコードツール

接続In-DBツールまたはApache Sparkコードツールをキャンバスにドラッグして、Apache Sparkに接続します。Apache Spark Directドライバーを使用して、新しいLivy接続を作成します。接続を設定するには、次の手順を使用します。

Databricks接続ウィンドウの設定

Databricksに接続してAlteryx接続文字列を作成するには、次の手順に従います。

[アカウントID] または [地域] を入力します。
- AWS でホストされているDatabricksの場合は、[DatabricksアカウントID] を入力します。DatabricksアカウントコンソールでアカウントIDを取得するには、右上のユーザー名の横にある下向き矢印を選択します。
- Azure でホストされているDatabricksの場合は、[地域] を入力します。地域とは、Azureデータセンターの場所です。これは、Databricks管理者が提供できます。
Databricksユーザー設定で生成したDatabricksの トークン を貼り付けます。トークンは有効期限が切れたり、失効したりすることがあります。
接続を選択します。Designerに、接続先のDatabricksクラスターのリストが表示されます。接続に失敗した場合は、資格情報をもう一度入力してみてください。
接続先のDatabricks クラスター を選択します。
[セッションタイプ] を選択します。記述するコードに応じて、次のいずれかを選択します。
- Scala
- Python
- R
必要に応じて、後で分かりやすいように、ジョブを説明する [実行名] を入力します。実行名は、サーバー上のジョブを区別するのに役立ちます。空白のままにすると、既定の名前は「Untitled」になります。
[タイムアウト] を分単位で設定します。これは、アクティビティがない状態が継続するとジョブが停止する時間(分)です。15分と入力した場合、アクティビティがないアイドル状態が15分間継続すると、ジョブがタイムアウトします。詳細については、Databricksのドキュメントを参照してください。

すでに提供されているライブラリのセットに加えて、ライブラリを追加すると、独自のコードを記述できます。

ファイルの種類	説明
jar	Java ARchive
egg	Python関連プロジェクト用の、単一ファイルのインポート可能なディストリビューション形式。
PyPi	Python Package Indexは、Python用のソフトウェアリポジトリです。
Maven	ファイルとアーティファクトのリポジトリ。
CRAN	Rファイルパッケージ

[+] アイコンを選択して、行を追加します。[保存] を選択して、ライブラリの設定をファイルに保存します。[ファイル] フォルダーアイコン を使用して、保存されている設定ファイルを検索します。行を削除するには、その行にカーソルを合わせて、ごみ箱アイコンを選択します。

[Databricks接続] で、[OK] を選択します。
[In-DB接続の管理] で、[OK] を選択し、Alteryx接続文字列を作成します。

Apache Spark on Databricks

接続に使用する Alteryx ツール

インデータベースのワークフロー処理

Databricks接続ウィンドウの設定

検索結果