Skip to main content

Engine Dataproc

Dataproc è un Engine Spark distribuito, in grado di eseguire i flussi di lavoro nativi di Cloud negli spazi di lavoro configurati con GCS come archivio dati privato. I vantaggi dell'engine Dataproc includono…

  • Rispetto all'engine AMP, Dataproc è più adatto ai dataset di grandi dimensioni e ai flussi di lavoro complessi.

  • I tuoi dati non escono mai dall'ambiente Google Cloud Project (GCP).

  • Eseguendo l'engine Dataproc nell'ambiente GCP, è possibile ridurre i costi operativi.

  • Rispetto all'engine AMP, la configurazione dell'engine Dataproc consente un livello di controllo superiore.

Importante

L'engine Dataproc deve essere configurato e abilitato da un Amministratore dello spazio di lavoro nello spazio di lavoro. Per ulteriori informazioni, vai a Guida alla configurazione dell'engine Dataproc.

Come utilizzare l'engine Dataproc

  1. Apri il tuo flusso di lavoro nativo di Cloud.

  2. Seleziona Dataproc dal menu a discesa Egine accanto a Esegui processo.

    Nota

    Il menu a discesa Egine rimane disattivato finché non aggiungi e configuri uno strumento Dati di output nel tuo flusso di lavoro.

  3. Seleziona Esegui processo.