Amazon Redshift
接続タイプ | ODBC (64ビット) |
サポートのタイプ | 読み込み&書き込み、インデータベース |
検証済み | データベースバージョン: 1.0.35649 ODBCクライアントバージョン: 1.5.2.1002 |
Simba Athena ODBCドライバーの詳細については、 Simba ODBC のドキュメントを参照してください。
注記
ワークフローをServerに保存するときのエラーを回避するには、 Simba Amazon Redshift ODBCドライバーDSN設定 で、[ Encrypt Password For: All Users of This Machine ] チェックボックスを選択します。
接続に使用する Alteryx ツール
標準的なワークフロー処理
インデータベースのワークフロー処理
Azure AD認証
Alteryxでは、Redshiftのエンタープライズグレードの認証が可能であるため、RedshiftでデータにアクセスするときにAzure Active DirectoryのIDを活用できます。
必要条件:
Azure Active DirectoryとAmazon Redshiftの間のセキュリティ統合。
AWS RedshiftインスタンスへのアクセスをプロビジョニングされたAzure ADユーザー。
Azure ADとRedshiftを統合する方法の詳細については、コミュニティの記事を参照してください。
ODBC 接続の設定
ODBC データ ソース アドミニストレーターで...
Redshiftドライバーを選択し、[ 設定 ] を選択します。
接続 設定 と資格情報を入力します。
追加 オプション 領域で、[ 結果全体をメモリに取得 ] オプションを選択します。
注記
この設定では、データセット全体が物理メモリにフェッチされます。物理メモリの容量が少ない場合は、データボリュームと使用可能な物理メモリの量に基づいて設定が変更される可能性があります。推奨の設定にするには、DBA を関与させる必要がある場合があります。
[ OK ] を選択して、接続を保存します。
Amazon Redshiftバルク接続を構成する
データ出力ツールを使用してバルク接続を使用するには...
[ ファイルまたはデータベースへの書き込み ] のドロップダウンを選択して、[ その他のデータベース ] > [ Amazon Redshiftバルク ] を選択します。
[ データソース名 ] を選択します(または、[ ODBC Admin ] を選択して作成します)。ODBCとOLEDBのデータベース接続を参照してください。
(オプション) [ ユーザー名 ] と [ パスワード ] を入力します。
Amazon S3 セクションで、[ AWSアクセスキー ] と [ AWSシークレットキー ] を入力または貼り付けて、アップロードするデータにアクセスします。
[ シークレットキーの暗号化 ] のドロップダウンで、暗号化オプションを選択します。
非表示 : 最小限の暗号化を使用してパスワードを非表示にします。
マシンの暗号化 : コンピューター上のすべてのユーザーが接続を最大限使用することができます。
ユーザーの暗号化 : サインインしているユーザーは、どのコンピューターでも接続を使用できます。
[ エンドポイント ] のドロップダウンで [ Default ] を選択すると、選択したバケットに基づいてAmazonがエンドポイントを自動的に決定します。プライベート S3 のデプロイメントのエンドポイントを指定する場合、または特定のバケット領域が分かっている場合は、エンドポイント (S3領域) を交互に選択する、カスタムエンドポイントを入力する、または以前に入力した 10 個のカスタムエンドポイントのうちの 1 つを選択することができます。
選択したバケットが指定したエンドポイントの領域にない場合、次のエラーが発生します。「アクセスしようとしているバケットは、指定されたエンドポイントを使用してアドレス指定する必要があります。今後のすべてのリクエストはこのエンドポイントに送信してください。」 [ Default ] を選択してエラーを消去します。
(オプション)既定の署名バージョン2ではなく、署名バージョン4 を使用するには、[認証に署名v4を使用する] を選択します。これによりセキュリティは向上しますが、接続速度が遅くなる場合があります。このオプションは、署名V4が必要なリージョンでは自動的に有効になります。
署名バージョン4が必要な地域 : 2014年1月30日以降に作成された地域では、署名バージョン4のみがサポートされます。次の地域では、署名バージョン 4 認証が必要です。
アメリカ東部 (オハイオ) 地域
カナダ (中央) 地域
アジア太平洋 (ムンバイ) 地域
アジア太平洋 (ソウル) 地域
EU (フランクフルト) 地域
EU (ロンドン) 地域
中国 (北京) 地域
暗号化されたAmazon S3バケットにアップロードする サーバー側の 暗号化 方法を選択します。Amazon S3 の暗号化方法の詳細については、 『Amazon シンプルストレージサービス開発者ガイド』 を参照してください。
None(既定) : 暗号化方法は使用されていません。
SSE-KMS : AWS KMS で管理されたキーでサーバーサイドの暗号化を使用します。オプションで KMS キー ID を指定します。この方法を選択すると、認証に Signature V4 を使用することが既定で有効になります。
[ バケット名 ] に、データオブジェクトが格納されているAWSバケットの名前を入力します。
必要に応じて、 [Redshift スペクトラムを使用] を選択してスペクトラムテーブルに接続します。
フィールドマッピング
Amazon Redshiftにデータをバルクロードする場合、ワークフロー出力のフィールドの順序がRedshiftデータベースのフィールドの順序と異なると、データが誤ったフィールドに書き込まれます。この問題を回避するには
データ出力ツール の [ フィールドマップを追加 ] オプションを選択して設定します(既定の設定を変更しない場合でも)。データ出力ツールのワークフローXMLでは、 <AppendMapping mode="byname" /> タグが追加されます。
[ 出力オプション ] を [ テーブルを上書き(ドロップ) ] に変更します。
出力オプションの設定
オプションで、次の Redshift オプションを指定または調整できます。詳細については、 『Amazon Redshift データベース開発者ガイド』 を参照してください。
注記
データ出力ツールを用いてSpectrumテーブルを作成するには、スキーマとテーブル名の両方を指定します。
spectrum_schema.tablename
分散スタイルに 「キー」が選択されていない場合、分散キーは無視されます。[ソートスタイル]で[なし]を選択すると、ソートキーは無視されます。
プライマリ キー : プライマリキーの列を選択し、列の順序を調整します。
分散 スタイル : 偶数 、 キー 、または すべて を選択します。
分散 キー : 分散キーに使用する列を選択します。
ソート スタイル : なし 、 複合 、または インターリーブ を選択します。
ソート キー : ソートキーに使用する列を選択し、列の順序を調整します。
バキューム処理と分析操作を有効にする : (バルク接続のみ) 既定で有効になっています。有効にすると、VACUUM および ANALYZE 保守コマンドは、Redshiftデータベースへのバルクロード付加の後に実行されます。
バルクロードチャンクのサイズ (1 MB ~ 102400 MB) : アップロードのパフォーマンスを向上させるために、大きなファイルは、指定した整数サイズの小さいファイルに、メガバイト単位で分割されます。既定値は128です。
バックスラッシュ (\) をエスケープ文字として有効にする : (バルク接続のみ) 既定で有効になっています。有効にすると、通常は特殊目的(区切り文字、引用符、埋め込み改行文字、エスケープ文字など)で使用されていても、バックスラッシュ文字の直後にある文字は列データとして読み込まれます。
重要
識別子は、データベース内で小文字に変換されます。クエリ結果では、テーブル名と列名は既定では小文字で返されます。詳細については、 Amazonの「名前と識別子」 のドキュメントを参照してください。
既知の問題
属性IDENTITY(seed, step)を含む列があるAmazon Redshiftテーブルにレコードを挿入する場合、挿入される最初の列の値は、データ出力ツールに渡される値ではなくNullです。