Motor Dataproc
O Dataproc é um motor Spark distribuído que pode executar seus fluxos de trabalho do nativo do Cloud se o espaço de trabalho estiver configurado com o GCS como armazenamento de dados privado. Os benefícios do motor Dataproc incluem…
O Dataproc é melhor para conjuntos de dados maiores e fluxos de trabalho complexos quando comparado ao AMP Engine.
Os dados não saem do ambiente do projeto do Google Cloud (GCP).
Você pode reduzir os custos operacionais executando o motor Dataproc em seu ambiente do GCP.
Você tem mais controle sobre a configuração do motor Dataproc quando comparado com o AMP Engine.
Importante
Um Administrador do espaço de trabalho deve configurar e habilitar o motor Dataproc em seu espaço de trabalho. Para obter mais informações, acesse Guia de configuração do Motor Dataproc.
Como usar o motor Dataproc
Abra o fluxo de trabalho nativo do Cloud.
Selecione Dataproc no menu suspenso do motor ao lado de Executar trabalho.
Nota
O menu suspenso do motor fica esmaecido até você adicionar e configurar uma ferramenta Dados de Saída ao seu fluxo de trabalho.
Clique em Executar trabalho.