Apache Spark en Databricks

Tipo de conexión	Servidor REST/HTML
Distribuciones validadas en	Databricks
Detalles del servidor	Puedes encontrar la información de Databricks aquí.
Tipo de soporte	En base de datos
Se validó en	Versión del cliente ODBC: 2.6.23.1039

Herramientas de Alteryx utilizadas para establecer conexiones

Procesamiento de flujos de trabajo en base de datos

Herramienta Conexión En-BD	Herramienta Entrada de flujo de datos
Herramienta Código de Apache Spark

Conéctate a Apache Spark arrastrando una herramienta Conexión En-BD o la herramienta Código de Apache Spark al lienzo. Crea una nueva conexión de Livy usando el controlador Apache Spark Direct. Sigue las instrucciones a continuación para configurar la conexión.

Configurar la ventana de conexión de Databricks

Haz lo siguiente para conectarte a Databricks y crear una cadena de conexión de Alteryx:

Ingresa tu Id. de cuenta o región.
- Para Databricks alojado en AWS, ingresa tu Id. de cuenta de Databricks. Puedes conocer el Id. de cuenta en la consola de cuentas de Databricks seleccionando la flecha hacia abajo junto al nombre de usuario en la esquina superior derecha.
- Para Databricks alojado en Azure, ingresa tu Región. La Región es la ubicación del centro de datos de Azure. El administrador de Databricks puede proporcionártela.
Pega el token de Databricks que generaste en la configuración de usuario de Databricks. Los tokens pueden expirar y ser revocados.
Selecciona Conectar. Designer muestra una lista de clústeres de Databricks a los que te puedes conectar. Si la conexión no se realiza correctamente, vuelve a ingresar tus credenciales.
Selecciona un clúster de Databricks al cual conectarte.
Selecciona un tipo de sesión. Elige una de las siguientes opciones según el código que estés escribiendo:
- Scala
- Python
- R
De forma opcional, ingresa un nombre de ejecución descriptivo para la tarea a fin de poder identificarlo más tarde. Los nombres de ejecución permiten a los usuarios distinguir una tarea de otra en el servidor. Si se deja en blanco, el nombre queda como Sin título.
Establece el tiempo de espera en una cantidad de minutos. Esta es la cantidad de minutos de inactividad antes de que la tarea se detenga. Si ingresas 15 minutos, la tarea puede permanecer inactiva sin ninguna actividad durante 15 minutos antes de que se detenga. Consulta la documentación de Databricks para obtener más detalles al respecto.

Agrega Bibliotecas además del conjunto de bibliotecas que ya está proporcionado para escribir tu propio código.

Tipo de archivo	Descripción
jar	Archivo Java
egg	Formato de distribución importable de un solo archivo para proyectos relacionados con Python.
PyPi	El índice de paquetes de Python es un repositorio de software para Python.
Maven	Un repositorio de archivos y artefactos
CRAN	Paquete de archivos R

Selecciona el ícono “+” para agregar una fila. Selecciona Guardar para guardar la configuración de la biblioteca en un archivo. Utiliza el ícono Carpeta de archivos para localizar un archivo de configuración guardado. Para eliminar una fila, pasa el cursor sobre ella y, luego, selecciona el ícono Papelera.

En Conexión de Databricks, selecciona Aceptar.
En Administrar conexiones En-BD, selecciona Aceptar para crear una cadena de conexión de Alteryx.

En esta sección:

Apache Spark en Databricks

Herramientas de Alteryx utilizadas para establecer conexiones

Procesamiento de flujos de trabajo en base de datos

Configurar la ventana de conexión de Databricks

Resultados de la búsqueda