Skip to main content

Motor Dataproc

O Dataproc é um motor Spark distribuído que pode executar seus fluxos de trabalho do nativo do Cloud se o espaço de trabalho estiver configurado com o GCS como armazenamento de dados privado. Os benefícios do motor Dataproc incluem…

  • O Dataproc é melhor para conjuntos de dados maiores e fluxos de trabalho complexos quando comparado ao AMP Engine.

  • Os dados não saem do ambiente do projeto do Google Cloud (GCP).

  • Você pode reduzir os custos operacionais executando o motor Dataproc em seu ambiente do GCP.

  • Você tem mais controle sobre a configuração do motor Dataproc quando comparado com o AMP Engine.

Importante

Um Administrador do espaço de trabalho deve configurar e habilitar o motor Dataproc em seu espaço de trabalho. Para obter mais informações, acesse Guia de configuração do Motor Dataproc.

Como usar o motor Dataproc

  1. Abra o fluxo de trabalho nativo do Cloud.

  2. Selecione Dataproc no menu suspenso do motor ao lado de Executar trabalho.

    Nota

    O menu suspenso do motor fica esmaecido até você adicionar e configurar uma ferramenta Dados de Saída ao seu fluxo de trabalho.

  3. Clique em Executar trabalho.