Databricks
接続タイプ | ODBC (64ビット) |
ドライバー設定要件 | ホストはDatabricksクラスタJDBC / ODBCサーバーのホスト名である必要があります。 最適なパフォーマンスを得るには、ドライバの高度なオプションでFast SQLPrepareオプションを有効にして、クエリを実行せずにAlteryxがメタデータを取得できるようにする必要があります。 DSNで [ Enabled Translation for CTAS ] チェックボックスをオフにする必要があります。これは既定で有効になっています。 ビジュアルクエリビルダーを使用するには、ドライバの高度なオプションで[クエリでテーブルを取得]オプションを選択します。 AWSとAzureの両方でサポートされています。 |
サポートのタイプ | 読み込み&書き込み、インデータベース |
検証済み | Databricks対話型およびSQLエンドポイントクラスター、Simba Apache Sparkドライバー2.06.23。 |
接続に使用する Alteryx ツール
標準的なワークフロー処理
インデータベースのワークフロー処理
Unicode®文字の読み書きに問題がある場合は、Simba Impala ODBCドライバーにアクセスしてください。[ 詳細オプション ] で、[ SQL Unicodeタイプを使用 ] を選択します。
文字列の長さはドライバーによって制御されます。この変更は、ODBC DSNの詳細オプションまたはドライバーのインストールフォルダーにあるドライバー設定の詳細オプションですることができます。
サポートを読み込む
Apache Spark ODBCドライバーをインストールして設定する:
Sparkサーバータイプ : 実行しているApache Sparkのバージョンに適したサーバータイプを選択します。Apache Spark 1.1以降を実行している場合は、Apache SparkThriftServerを選択します。
認証メカニズム : Simba Apache Sparkドライバーと共にダウンロードされたインストールガイドを参照し、お使いのセットアップに基づいてこの設定を行います。
ドライバーの 詳細オプション を設定するには、Simba Apache Sparkドライバーでダウンロードされたインストールガイドを参照してください。
書き込みサポート
標準ワークフローとインデータベースワークフローの両方で、 データストリーム入力ツール を使用してDatabricksに書き込みます。書き込みのサポートは、Databricks Bulk Loader経由で行います。[ In-DB接続の管理 - 書き込み ] に移動します。
[書き込み] タブの設定
Databricksバルクローダー(Avro) または Databricks バルクローダー(CSV) を選択します。合計4,000文字を超えるフィールド名を持つテーブルを作成する場合は、AvroではなくCSVを使用します。CSVで使用される区切り文字は、見出しの先頭(SOH)文字です。
[ 接続文字列 ] ドロップダウンを選択し、[ 新しいDatabricks接続 ] を選択します。
既存のODBCデータソースを選択するか、 ODBC管理者 を選択して作成します。
ユーザー名とパスワードを入力してください。これらのフィールドは空白にすることはできません。
Databricks URLの入力
https://abc-abc123-123a.cloud.databricks.com
警告
URLの末尾に「/」を含めると(例: https://abc-abc123-123a.cloud.databricks.com /)、エラーになります。
Databricks Delta Lake バルク接続
Designer 2024.1では、 Redshiftバルク接続がAWS IAM (Identity and Access Management)認証をサポートします 。
Databricks Delta Lakeバルク接続を設定するには、次の手順に従います。
重要
Databricks Delta Lakeバルク接続は、Designerバージョン2022.1以降でのみ使用できます。
[ Databricks Delta Lakeバルクローダー(Avro) ]を、合計4,000文字を超えるフィールド名を持つテーブルを作成する場合は [ Databricks Delta Lake バルクローダー(CSV) ] を選択します。
[ 接続文字列 ] ドロップダウンを選択し、[ 新しいデータベース接続 ] を選択します。
既存のODBCデータソースを選択するか、 ODBC管理者 を選択して作成します。
ユーザー名とパスワードを入力してください。これらのフィールドは空白にすることはできません。Alteryxは個人のアクセストークンをサポートしています。ユーザー名は「token」です。パスワードは個人のアクセストークンです。
ステージングメソッド を選択します(AWSとAzureの両方でサポートされています)。
Amazon S3用
認証する AWSアクセスキー と シークレットキー を入力します。
エンドポイント を選択するか、[ Default ] のままにします。
[ 認証に署名V4を使用する ] を選択します。
必要な サーバー側の暗号化 のレベルを選択します。既定は [None] です。
ステージング場所として使用する バケット名 を選択します。
Designer 2024.1では、 DatabricksバルクローダーはAWS IAM (Identity and Access Management)認証をサポート します。
Azure ADLS用
重要
Azureのバルクローディングでは、 ADL Gen 2 のみがサポートされています。
[ ADLSコンテナ ] を選択します。
共有キー を入力します。
ストレージアカウント を入力します。
オプションの 一時ディレクトリ を入力します。一時ディレクトリを入力するときは、 コンテナ名 を繰り返さないでください。
例
フォルダ構造がContainer/MyTempFolder/TempTablesの場合は、「MyTempFolder/TempTables」のみを入力します。
ここで入力したディレクトリが存在しない場合は、Alteryxによって作成されます。
Alteryxは、ステージングされる各テーブルにつき、そのテーブル名を持つサブフォルダーを1つ作成します。
[ OK ] を選択して適用します。
Designer 2023.2では、 DatabricksバルクローダーはADLSステージングのAzure AD認証をサポート します。この機能により、組織はストレージアカウント内の個々のコンテナへのアクセスをきめ細かく管理できるようになり、Databricksバルクローダーのセキュリティが向上します。
DatabricksバルクローダーでADLSステージングにAzure AD認証を使用する方法の詳細については、このコミュニティページを参照してください。