Skip to main content

Apache Spark en Databricks

Tipo de conexión

Servidor REST/HTML

Distribuciones validadas en

Databricks

Detalles del servidor

Puedes encontrar la información de Databricks aquí.

Tipo de soporte

En base de datos

Se validó en

Versión del cliente ODBC: 2.6.23.1039

Herramientas de Alteryx utilizadas para establecer conexiones

Procesamiento de flujos de trabajo en base de datos

Conéctate a Apache Spark arrastrando una herramienta Conexión En-BD o la herramienta Código de Apache Spark al lienzo. Crea una nueva conexión de Livy usando el controlador Apache Spark Direct. Sigue las instrucciones a continuación para configurar la conexión.

Configurar la ventana de conexión de Databricks

Haz lo siguiente para conectarte a Databricks y crear una cadena de conexión de Alteryx:

  1. Ingresa tu Id. de cuenta o región.

    • Para Databricks alojado en AWS, ingresa tu Id. de cuenta de Databricks. Puedes conocer el Id. de cuenta en la consola de cuentas de Databricks seleccionando la flecha hacia abajo junto al nombre de usuario en la esquina superior derecha.

    • Para Databricks alojado en Azure, ingresa tu Región. La Región es la ubicación del centro de datos de Azure. El administrador de Databricks puede proporcionártela.

  2. Pega el token de Databricks que generaste en la configuración de usuario de Databricks. Los tokens pueden expirar y ser revocados.

  3. Selecciona Conectar. Designer muestra una lista de clústeres de Databricks a los que te puedes conectar. Si la conexión no se realiza correctamente, vuelve a ingresar tus credenciales.

  4. Selecciona un clúster de Databricks al cual conectarte.

  5. Selecciona un tipo de sesión. Elige una de las siguientes opciones según el código que estés escribiendo:

    • Scala

    • Python

    • R

  6. De forma opcional, ingresa un nombre de ejecución descriptivo para la tarea a fin de poder identificarlo más tarde. Los nombres de ejecución permiten a los usuarios distinguir una tarea de otra en el servidor. Si se deja en blanco, el nombre queda como Sin título.

  7. Establece el tiempo de espera en una cantidad de minutos. Esta es la cantidad de minutos de inactividad antes de que la tarea se detenga. Si ingresas 15 minutos, la tarea puede permanecer inactiva sin ninguna actividad durante 15 minutos antes de que se detenga. Consulta la documentación de Databricks para obtener más detalles al respecto.

  8. Agrega Bibliotecas además del conjunto de bibliotecas que ya está proporcionado para escribir tu propio código.

    Tipo de archivo

    Descripción

    jar

    Archivo Java

    egg

    Formato de distribución importable de un solo archivo para proyectos relacionados con Python.

    PyPi

    El índice de paquetes de Python es un repositorio de software para Python.

    Maven

    Un repositorio de archivos y artefactos

    CRAN

    Paquete de archivos R

    Selecciona el ícono “+” para agregar una fila. Selecciona Guardar para guardar la configuración de la biblioteca en un archivo. Utiliza el ícono Carpeta de archivos para localizar un archivo de configuración guardado. Para eliminar una fila, pasa el cursor sobre ella y, luego, selecciona el ícono Papelera.

  9. En Conexión de Databricks, selecciona Aceptar.

  10. En Administrar conexiones En-BD, selecciona Aceptar para crear una cadena de conexión de Alteryx.