Skip to main content

Dataproc 引擎

Dataproc 是一个分布式 Spark 引擎,若您的工作区已设置 GCS 作为私有数据存储,则可运行您的云原生工作流。Dataproc 引擎的优势包括…

  • 与 AMP 引擎相比,Dataproc 更适合处理大型数据集和复杂的工作流。

  • 您的数据不会离开您的 Google Cloud 项目 (GCP) 环境。

  • 在 GCP 环境中运行 Dataproc 引擎可以降低运营成本。

  • 与 AMP 引擎相比,您对 Dataproc 引擎的配置拥有更大的控制权。

重要

工作区管理员 必须在您的工作区中配置并启用 Dataproc 引擎。有关详细信息,请访问Dataproc 引擎设置指南

如何使用 Dataproc 引擎

  1. 打开您的云原生工作流。

  2. 运行作业旁边的引擎下拉列表中选择 Dataproc

    注意

    在向工作流中添加并配置输出数据工具之前,“引擎”下拉列表将显示为灰色。

  3. 选择运行作业