Moteur Dataproc
Dataproc est un moteur Spark distribué qui peut exécuter vos workflows Cloud-natifs si votre espace de travail est configuré avec GCS en tant que stockage de données privées. Les avantages du moteur Dataproc sont les suivants :
Dataproc est idéal pour les jeux de données plus volumineux et les workflows complexes par rapport à AMP Engine.
Vos données ne quittent pas votre environnement Google Cloud Project (GCP).
Vous pouvez réduire vos coûts d'exploitation en exécutant le moteur Dataproc dans votre environnement GCP.
Vous disposez d'un meilleur contrôle sur la configuration du moteur Dataproc par rapport à AMP Engine.
Important
Un Administrateur de l'espace de travail doit configurer et activer le moteur Dataproc dans votre espace de travail. Pour plus d'informations, consultez Guide de configuration du moteur Dataproc.
Comment utiliser le moteur Dataproc
Ouvrez votre workflow Cloud-natif.
Sélectionnez Dataproc dans la liste déroulante des moteurs en regard de Exécuter la tâche.
Note
La liste déroulante des moteurs est grisée jusqu'à ce que vous ajoutiez et configuriez un outil Sortie de données pour votre workflow.
Sélectionnez Exécuter la tâche.