Guía de configuración del motor de Dataproc
Conecta tu espacio de trabajo de Alteryx One Platform a tu cuenta Dataproc Serverless para activar Motor Dataproc. Dataproc es un motor de Spark distribuido que puede ejecutar tus flujos de trabajo de Designer Cloud si el espacio de trabajo está configurado con GCS como Almacenamiento privado de datos. Sigue estos pasos para habilitar el motor Dataproc en tu espacio de trabajo…
Prerrequisitos
Debes ser un Administrador de espacio de trabajo en Alteryx One.
Tu espacio de trabajo de Alteryx One debe estar configurado con GCS como Almacenamiento privado de datos.
Una cuenta de servicio de GCP para ejecutar lotes de Dataproc (tareas).
Tener acceso administrativo al proyecto de GCP objetivo.
Crea una red de VPC para todas las regiones que deseas utilizar.
Establece la restricción
constraints/compute.requireOsLoginenfalsoen el proyecto que deseas utilizar.
Guía de configuración del motor de Dataproc
Sigue estos pasos para habilitar el motor Dataproc en tu espacio de trabajo de Alteryx One…
Cuentas de servicio de GCP
Hay dos tipos de cuentas de servicio que necesitas…
Cuenta de servicio de almacenamiento base para GCS. Ten en cuenta que solo necesitas esta cuenta si utilizas el modo de espacio de trabajo. Alteryx One utiliza esta cuenta para acceder a GCS durante el tiempo de diseño y crea lotes de Dataproc. La cuenta debe tener permiso para crear y supervisar lotes de Dataproc. Estos son los roles recomendados…
Nota
Si utilizas el modo de usuario, Alteryx One no utiliza la cuenta de servicio de almacenamiento base. En su lugar, Alteryx One utiliza tu identidad de SSO para iniciar el lote de Dataproc. Sin embargo, necesitas los mismos roles que se enumeran para la cuenta de servicio de almacenamiento base.
Editor de Dataproc (
roles/dataproc.editor) en el proyecto que deseas ejecutar Dataproc.Usuario de la cuenta de servicio (
roles/iam.serviceAccountUser) en la cuenta de servicio de Dataproc. Para obtener más información, consulta la documentación de rol de GCS.
Cuenta de servicio de Dataproc. Alteryx One pasa esta cuenta de servicio como argumento al crear un lote de Dataproc. Debe tener el rol de trabajador de Dataproc (
roles/dataproc.worker) en el proyecto en el que se está ejecutando.
Configuración del proyecto de GCP
Establece la restricción constraints/compute.requireOsLogin en falso en el proyecto de Google Cloud Platform (GCP) que deseas utilizar. Para obtener más información, consulta la documentación sobre la política de GCS.
Configuración de red de VPC
Debes tener una red VCP configurada para ejecutar tareas de Dataproc. Para obtener más información sobre cómo configurar esta red, consulta la documentación sin servidor de Dataproc.
Configuración completa
El administrador de espacio de trabajo puede configurar Dataproc para su espacio de trabajo a través de la consola de administrador.

Ve a la sección Administrador de espacio de trabajo > Almacenes de datos > Dataproc.
Completar el formulario de configuración
Id. de proyecto | El lote de Dataproc se ejecuta dentro de este proyecto de Google. |
Nombre de la red de VPC | Se utiliza una red de VPC (en este caso, se utiliza una red con subredes automáticas, por lo que no es necesario especificar explícitamente el nombre de la subred. Si la red está configurada con subredes personalizadas, el nombre de la subred también se debe especificar en el formulario). |
Región | Región donde se ejecuta el lote de Dataproc. |
Nombre de la cuenta de servicio | Cuenta de servicio utilizada para ejecutar el lote de Dataproc. Esto se especifica como un parámetro en el momento del inicio y no es necesariamente la misma cuenta de servicio que el almacenamiento base. |