Databricks Unity Catalog
接続タイプ | ODBC (64ビット) |
ドライバー設定要件 | ホストはDatabricks Unity CatalogクラスターJDBC/ODBCサーバーのホスト名である必要があります。 AWSとAzureの両方でサポートされています。 |
サポートのタイプ | 読み込み&書き込み、インデータベース |
検証済み | DatabricksクラスターおよびSQL Warehouse、Simba Apache Sparkドライバー2.9.4.1013 |
ドライバーの詳細
インデータベース処理には、64ビットのデータベースドライバが必要です。
接続に使用するAlteryxツール
標準的なワークフロー処理
インデータベースのワークフロー処理
注記
Databricks Unity Catalogのサポートは、DCMを使用する場合のみサポートされます。
Databricks Unity Catalogは、DSNレス接続を使用する場合のみサポートされます。
Databricks Unity Catalogへの書き込みは、In-DBツール を使用する場合のみサポートされています。
Databricks Unity Catalog用のMergeInDBをサポートしています。データ書込In-DBツール を参照してください。
入力ツールの設定
このツールは、DCMの Simba Databricks Unity Catalog経由Apache Spark ODBC DSNレス 接続テクノロジーを使用します。
DCMが有効になっていることを確認します。
入力ツールで [接続を設定します] を選択します。
[データソース] タブを選択します。
Databricks Unity Catalog の下にある [クイック接続] オプションを選択します。
DCM接続マネージャーは、Simba Databricks Unity Catalog経由Apache Spark ODBC DSNレス 接続のみを表示するように事前にフィルタリングされています。
既存のDCM接続を選択するか、[+新規] を選択して新しい接続を作成します。DCMを使用して新しい接続を設定する方法については、以下を参照してください
[テーブルの選択またはクエリを指定] ウィンドウがロードされ、テーブルを選択できます。
In-DB接続の設定
In-DB接続の管理 を開きます。
[データソース] ドロップダウンで [Databricks Unity Catalog] を選択します。
[新規] を選択して新しい接続を作成します。
接続名を入力します。
[読み取り] タブで [接続セットアップ] を選択して、Databricks Unity CatalogのDCM接続マネージャーを開きます。DCM接続マネージャーは、Simba Databricks Unity Catalog経由Apache Spark ODBC DSNレス 接続のみを表示するように事前にフィルタリングされています。
既存の接続を選択するか、[+新規] をクリックして新しい接続を作成します。DCMを使用して新しい接続を設定する方法については、以下を参照してください
[書き込み] タブで [接続セットアップ] を選択してDatabricks接続のDCM接続マネージャーを開きます。DCM接続マネージャーは、Simba Databricks Unity Catalog経由Apache Spark ODBCバルクDSNレス 接続のみを表示するように事前にフィルタリングされています。
既存の接続を選択するか、[+新規] を選択して新しい接続を作成します。DCMを使用して新しい接続を設定する方法については、以下を参照してください
[書き込み] タブで [接続セットアップ] を選択して、Delta Lake接続のDCM接続マネージャーを開きます。DCM接続マネージャーは、Delta Lake 接続のみを表示するように事前にフィルタリングされています。
既存の接続を選択するか、[+新規] を選択して新しい接続を作成します。DCMを使用して新しい接続を設定する方法については、以下を参照してください
[適用] と [OK] を選択して接続を保存し、ウィンドウを閉じます。
[In-DB接続の管理] に接続In-DBツールからアクセスした場合は、[テーブルの選択またはクエリを指定] ウィンドウがロードされ、テーブルを選択できます。
注: Databrick Unity Catalogでは、読み取りに対する最小アクセス権として次の権限が必要です。
情報スキーマ(既定)
CATALOGのUSE CATALOG
SCHEMAのUSE SCHEMA
対応するテーブルのBROWSE(既定)
対応するテーブルのSELECT
DCMでのSimba Databricks Unity Catalog経由Apache Spark ODBC DSNレスの設定
この接続は、Databricks Unity Catalogからデータを読み取るために使用されます。
データ接続マネージャーを開き、[Simba Databricks Unity Catalog経由Apache Spark ODBC DSNレス] に移動します。
入力ツールまたは [In-DB接続の管理] から、DCMは事前にフィルタリングされています。
[ファイルメニュー]から、[ファイル] > [接続を管理] > [+新規] > [Apache Spark] > [Simba Databricks Unity Catalog経由Apache Spark ODBC DSNレス]に移動します
データソース名 を入力します。
Databricks Unity Catalogのホスト 名を入力します。
既定ではポートは443に設定されます。必要に応じて変更します。
httpパスを入力します。httpパスは、DatabricksコンピューティングリソースのURLです。
[保存] を選択して、データソースを保存します。
[+資格情報の接続] を選択します。
[認証方法] を選択します。
個人のアクセストークンを使用するには、認証方法として [ユーザー名とパスワード] を選択し、ユーザー名を「トークン」にします。
Azure ADを使用するには、[Databricks Azure Oauth認証] を参照してください。
[既存の資格情報] を選択する か、[新しい資格情報の作成] を選択して新しい資格情報を作成し、個人のアクセストークンまたはAzure ADの情報を入力します。
[リンク] を選択して資格情報をデータソースにリンクし、[接続] を選択します。
DCMでのSimba Databricks Unity Catalog経由Apache Spark ODBCバルクDSNレスの設定
この接続は、Databricks Unity Catalogへのデータ書き込みに使用されます。
データ接続マネージャーを開き、[Simba Databricks Unity Catalog経由Apache Spark ODBCバルクDSNレス] に移動します。
入力ツールまたは [In-DB接続の管理] から、DCMは事前にフィルタリングされています。
[ファイルメニュー]から、[ファイル] > [接続を管理] > [+新規] > [Apache Spark] > [Simba Databricks Unity Catalog経由Apache Spark ODBC DSNレス]に移動します。
データソース名 を入力します。
Databricks Unity Catalogのホスト 名を入力します。
既定ではポートは443に設定されます。必要に応じて変更します。
httpパスを入力します。httpパスは、DatabricksコンピューティングリソースのURLです。
カタログ を入力します。これにより、データの書き込みとテーブルの作成に使用するカタログが設定されます。
スキーマ を入力します。これにより、データの書き込みとテーブルの作成に使用するスキーマが設定されます。
[保存] を選択して、データソースを保存します。
[+資格情報の接続] を選択して、資格情報を追加します。
[認証方法] を選択します。
個人のアクセストークンを使用するには、認証方法として [ユーザー名とパスワード] を選択し、ユーザー名を「トークン」にします。
Azure ADを使用するには、[Databricks Azure Oauth認証] を参照してください。
[既存の資格情報] を選択する か、[新しい資格情報の作成] を選択して新しい資格情報を作成し、個人のアクセストークンまたはAzure ADの情報を入力します。
[リンク] を選択して、資格情報をデータソースにリンクします。
[接続] を選択して接続します。
DCMでのDelta Lake接続の設定
この接続は、AWS S3またはADLSのデータのステージングに使用されます。
データ接続マネージャーを開き、[AWS上のDelta Lake] または [Azure上のDelta Lake] に移動します。
入力ツールまたは [In-DB接続の管理] から、DCMは事前にフィルタリングされています。
[ファイルメニュー]から、[ファイル] > [接続を管理] > [+新規] > [Delta Lake] > [AWS上のDelta Lake/Azure上のDelta Lake]に移動します。
AWS上のDelta Lakeの場合
データソース名 を入力します。
エンドポイント を入力するか、[Default] のままにします。[Default] を使用すると、選択したバケットに基づいてAmazonがエンドポイントを決定します。
特に別の指示がない限り、[認証に署名V4を使用する] が選択されていることを確認します。チェックされていない場合は、署名V2が使用されます。2014年1月30日より後に作成された地域では、署名バージョン4のみがサポートされます。次の地域では、署名バージョン 4 認証が必要です。
アメリカ東部(オハイオ)地域、
カナダ(中央)地域、
アジア太平洋(ムンバイ)地域、
アジア太平洋(ソウル)地域、
EU(フランクフルト)地域、
EU(ロンドン)地域、
中国(北京)地域。
必要なサーバー側の暗号化のレベルを選択します。既定では [None] です。
None (Default): 暗号化方式は使用されません。
SSE-KMS: AWS KMS で管理されたキーでサーバーサイドの暗号化を使用します。KMS キー ID を指定することもできます。この方法を選択したときは、[認証に署名V4を使用する] の選択が必要です。
ステージングに使用する バケット名 を入力します。ユーザーは、バケットの読み取り、書き込み、削除の権限を持っている必要があります。
Azure上のDelta Lakeの場合
データソース名、ADLSコンテナ、ストレージアカウントを入力します。
ストレージの [一時ディレクトリ] はオプションです。一時ディレクトリを入力するときは、コンテナ名を繰り返さないでください。ここで入力したディレクトリが存在しない場合は、Alteryxによって作成されます。Alteryxでは、ステージングされたテーブルごとにそのテーブル名がついたサブフォルダーが1つ作成されます。
[保存] を選択して、データソースを保存します。
[+資格情報の接続] を選択します。
[認証方法] を選択します。
AWS上のDelta Lakeの場合、認証方法は AWS IAMアクセスキー のみです。
Azure上のDelta Lakeの場合、[共有アクセスキー] または [Azure AD] 認証のどちらかを選択できます。
既存の資格情報 を選択するか、新しい資格情報の作成 で新しい資格情報を作成します。
資格情報名と、AWS IAMアクセスキーまたはAzure共有キーを入力します。
[リンク] を選択して、資格情報をデータソースにリンクします。
[接続]を選択します。
DatabricksのUPSERTのサポート
DesignerでIn-DBマージ機能が拡張され、DatabricksのUPSERT動作を完全にサポートするようになりました。
一致した行に対するUPDATEとDELETEの操作に加えて、一致しない行に対してオプションで、WHEN NOT MATCHED条件を使用してINSERTを実行できるようになりました。これにより、1つのワークフローで一致したレコードと一致しないレコードを管理できます。
UPSERT用にデータ書込In-DBを設定する
データ書込In-DBツールをキャンバスにドラッグし、出力モードを[テーブルのマージ]に設定します。
マージ操作を実行するターゲットテーブルをDatabricksで指定します。
入力行とターゲット行を一致させる1つ以上のキー列を選択します。
例:
people10m.id = people10mupdates.idアクションの設定
WHEN MATCHED – 一致したレコードに対してUPDATEまたはDELETEのどちらを使用するかを選択します。
WHEN NOT MATCHED (オプション) – 一致しない行を挿入するには、INSERTを選択します。
ワークフローを実行して、DatabricksでUPSERT操作を実行します。この操作は、指定されたとおりにレコードを更新、削除、または挿入します。
重要
この機能は完全な下位互換性を提供します。[WHEN NOT MATCHED]を選択しない場合、Designerは以前と同様に動作します。



