Skip to main content

Dataprocエンジン

Dataprocは、ワークスペースがプライベートデータストレージとしてのGCSで設定されている場合に、クラウドネイティブワークフローを実行できる分散Sparkエンジンです。Dataprocエンジンのメリットは次のとおりです。

  • Dataprocは、AMP Engineと比較して、大規模なデータセットや複雑なワークフローに最適。

  • データがGoogle Cloudプロジェクト(GCP)環境から離れることがない。

  • GCP環境でDataprocエンジンを実行することで、運用コストを削減可能。

  • AMP Engineと比較した場合、Dataprocエンジンの設定の方がより詳細に制御できる。

重要

ワークスペース管理者は、ワークスペースでDataprocエンジンを設定して有効化する必要があります。詳細については、 Dataprocエンジンのセットアップガイドを参照してください。

Dataprocエンジンの使用方法

  1. クラウドネイティブワークフローを開きます。

  2. [ジョブを実行]の横にあるエンジンのドロップダウンから[Dataproc]を選択します。

    注記

    エンジンのドロップダウンは、ワークフローにデータ出力ツールを追加して設定するまでグレー表示されます。

  3. [ジョブを実行]を選択します。