Dataprocエンジン
Dataprocは、ワークスペースがプライベートデータストレージとしてのGCSで設定されている場合に、クラウドネイティブワークフローを実行できる分散Sparkエンジンです。Dataprocエンジンのメリットは次のとおりです。
Dataprocは、AMP Engineと比較して、大規模なデータセットや複雑なワークフローに最適。
データがGoogle Cloudプロジェクト(GCP)環境から離れることがない。
GCP環境でDataprocエンジンを実行することで、運用コストを削減可能。
AMP Engineと比較した場合、Dataprocエンジンの設定の方がより詳細に制御できる。
重要
ワークスペース管理者は、ワークスペースでDataprocエンジンを設定して有効化する必要があります。詳細については、 Dataprocエンジンのセットアップガイドを参照してください。
Dataprocエンジンの使用方法
クラウドネイティブワークフローを開きます。
[ジョブを実行]の横にあるエンジンのドロップダウンから[Dataproc]を選択します。
注記
エンジンのドロップダウンは、ワークフローにデータ出力ツールを追加して設定するまでグレー表示されます。
[ジョブを実行]を選択します。