Engine Dataproc
Dataproc è un Engine Spark distribuito, in grado di eseguire i flussi di lavoro nativi di Cloud negli spazi di lavoro configurati con GCS come archivio dati privato. I vantaggi dell'engine Dataproc includono…
Rispetto all'engine AMP, Dataproc è più adatto ai dataset di grandi dimensioni e ai flussi di lavoro complessi.
I tuoi dati non escono mai dall'ambiente Google Cloud Project (GCP).
Eseguendo l'engine Dataproc nell'ambiente GCP, è possibile ridurre i costi operativi.
Rispetto all'engine AMP, la configurazione dell'engine Dataproc consente un livello di controllo superiore.
Importante
L'engine Dataproc deve essere configurato e abilitato da un Amministratore dello spazio di lavoro nello spazio di lavoro. Per ulteriori informazioni, vai a Guida alla configurazione dell'engine Dataproc.
Come utilizzare l'engine Dataproc
Apri il tuo flusso di lavoro nativo di Cloud.
Seleziona Dataproc dal menu a discesa Egine accanto a Esegui processo.
Nota
Il menu a discesa Egine rimane disattivato finché non aggiungi e configuri uno strumento Dati di output nel tuo flusso di lavoro.
Seleziona Esegui processo.