Dataproc 引擎
Dataproc 是一个分布式 Spark 引擎,若您的工作区已设置 GCS 作为私有数据存储,则可运行您的云原生工作流。Dataproc 引擎的优势包括…
与 AMP 引擎相比,Dataproc 更适合处理大型数据集和复杂的工作流。
您的数据不会离开您的 Google Cloud 项目 (GCP) 环境。
在 GCP 环境中运行 Dataproc 引擎可以降低运营成本。
与 AMP 引擎相比,您对 Dataproc 引擎的配置拥有更大的控制权。
重要
工作区管理员 必须在您的工作区中配置并启用 Dataproc 引擎。有关详细信息,请访问Dataproc 引擎设置指南。
如何使用 Dataproc 引擎
打开您的云原生工作流。
从运行作业旁边的引擎下拉列表中选择 Dataproc。
注意
在向工作流中添加并配置输出数据工具之前,“引擎”下拉列表将显示为灰色。
选择运行作业。