Motor Dataproc
Dataproc es un motor de Spark distribuido que puede ejecutar tus flujos de trabajo nativos de Cloud si tu espacio de trabajo está configurado con GCS como Almacenamiento privado de datos. Los beneficios del motor Dataproc incluyen…
Dataproc es mejor para conjuntos de datos más grandes y flujos de trabajo complejos en comparación con el motor AMP Engine.
Tus datos no salen de tu entorno de Google Cloud Project (GCP).
Puedes reducir los costos operativos ejecutando el motor Dataproc en tu entorno de GCP.
Tienes más control sobre la configuración del motor Dataproc en comparación con el motor AMP Engine.
Importante
Un Administrador de espacio de trabajo debe configurar y habilitar el motor Dataproc en tu espacio de trabajo. Para obtener más información, ve a Guía de configuración del motor de Dataproc.
Cómo usar el motor Dataproc
Abre tu flujo de trabajo nativo de Cloud.
Selecciona Dataproc en el menú desplegable del motor junto a Ejecutar tarea.
Nota
El menú desplegable del motor estará inactivo hasta que agregues y configures una herramienta Datos de salida a tu flujo de trabajo.
Selecciona Ejecutar tarea.