Databricks

Tipo de conexión	ODBC (64 bits)
Requisitos de configuración del controlador	El host debe ser un nombre de host del servidor de JDBC/ODBC del clúster de Databricks. Para lograr un rendimiento óptimo, debes habilitar la opción SQLPrepare rápido en las opciones avanzadas del controlador a fin de que Alteryx pueda recuperar los metadatos sin ejecutar una consulta. La casilla de verificación Traducción habilitada para CTAS debe estar desmarcada en el DSN. Está habilitada de forma predeterminada. Para usar el Generador de consultas visuales, selecciona la opción Obtener tablas con consulta en olas pciones avanzadas del controlador. Es compatible con AWS y Azure.
Tipo de soporte	Lectura y escritura; en base de datos
Se validó el	Clúster interactivo de Databricks y de punto de conexión de SQL, controlador de Apache Spark con Simba 2.06.23.

Herramientas de Alteryx utilizadas para establecer conexiones

Procesamiento de flujos de trabajo estándares

Herramienta Datos de entradaInput Data Tool

Enlace

Procesamiento de flujo de trabajo en base de datos

Herramienta Conexión En-BD

Blue icon with database being plugged in.

Enlace

Herramienta Entrada de flujo de datos

Blue icon with a stream-like object flowing into a database.

Enlace

Si tienes problemas con la lectura o la escritura de caracteres Unicode®, accede al controlador ODBC de Impala con Simba. En Opciones avanzadas, selecciona Usar tipos Unicode de SQL.

El controlador controla la longitud de la cadena. Puedes cambiarla en las opciones avanzadas del DSN del ODBC o a través de las opciones avanzadas de la configuración del controlador, que puedes encontrar en la carpeta de instalación pertinente.

Soporte de lectura

Instala y configura el controlador ODBC de Apache Spark:

Tipo de servidor Spark: selecciona el tipo de servidor apropiado para la versión de Apache Spark que estás ejecutando. Si estás ejecutando Apache Spark 1.1 y versiones posteriores, selecciona Apache Spark Thrift Server.
Mecanismo de autenticación: consulta la guía de instalación descargada con el controlador de Apache Spark con Simba para modificar estos ajustes en función de tu configuración.

Para configurar las opciones avanzadas del controlador, consulta la guía de instalación descargada con el controlador de Apache Spark con Simba.

Soporte de escritura

Utiliza la herramienta Entrada de flujo de datos a fin de escribir en Databricks, tanto para flujos de trabajo en base de datos como para flujos de trabajo estándares. El soporte de escritura se proporciona a través del cargador masivo de Databricks. Ve a Administrar conexiones En-BD - Escribir.

Configurar la pestaña Escribir

Selecciona Cargador masivo de Databricks (Avro) o Cargador masivo de Databricks (CVS). Para escribir una tabla con nombres de campo que suman más de 4000 caracteres, utiliza CSV en lugar de Avro. El delimitador usado para CSV es el carácter de inicio del encabezado (SOH).
Selecciona la lista desplegable Cadena de conexión y, a continuación, selecciona Nueva conexión de Databricks.
Selecciona una fuente de datos de ODBC existente o selecciona Administrador de ODBC para crear una.
Ingresa un nombre de usuario y una contraseña. Estos campos no pueden quedar en blanco.
Ingresa la URL de Databricks:
https://abc-abc123-123a.cloud.databricks.com
Aviso
Si incluyes un “/” al final de la URL (por ejemplo, https://abc-abc123-123a.cloud.databricks.com/) ocurrirá un error.

Conexión masiva de Databricks Delta Lake

Sigue los pasos a continuación para configurar la conexión masiva de Databricks Delta Lake.

Importante

La conexión masiva de Databricks Delta Lake solo está disponible en Designer 2022.1 y versiones posteriores.

Selecciona Cargador masivo de Databricks Delta Lake (Avro) o Cargador masivo de Databricks Delta Lake (CSV) para escribir una tabla con nombres de campos que suman más de 4000 caracteres.
Selecciona la lista desplegable Cadena de conexión y, a continuación, selecciona Nueva conexión de base de datos.
Selecciona una fuente de datos de ODBC existente o selecciona Administrador de ODBC para crear una.
Ingresa un nombre de usuario y una contraseña. Estos campos no pueden quedar en blanco. Alteryx admite los tokens de acceso personales. El nombre de usuario es “token” y la contraseña es el token de acceso personal.
Selecciona un método de ensayo (compatible con AWS y Azure):
1. Para Amazon S3:
  1. Ingresa la clave de acceso de AWS y la clave secreta para autenticar.
  2. Selecciona un punto de conexión o déjalo como Predeterminado.
  3. Selecciona Utilizar Signature V4 para la autenticación.
  4. Selecciona el grado necesario de Cifrado en el lado del servidor. El valor predeterminado es Ninguno.
  5. Selecciona un nombre de bucket para usarlo como la ubicación de ensayo.
2. Para Azure ADLS:
  Importante
  En el caso de la carga masiva de Azure solo se admite ADLS Gen 2.
  1. Selecciona el contenedor de ADLS.
  2. Ingresa la clave compartida.
  3. Ingresa la cuenta de almacenamiento.
  4. Ingresa un Directorio temporal opcional. Cuando ingreses el directorio temporal, no repitas el nombre del contenedor.
    Ejemplo
    Si la estructura de las carpetas es Container/MyTempFolder/TempTables, solo escribe “MyTempFolder/TempTables”.
    Si el directorio ingresado aquí no existe, Alteryx creará uno.
    Alteryx creará una subcarpeta con el nombre de la tabla para cada tabla que se utiliza en el ensayo.
3. Para aplicar los cambios, selecciona Aceptar.

En esta sección:

Autenticación OAuth de Azure para Databricks

Databricks

Herramientas de Alteryx utilizadas para establecer conexiones

Procesamiento de flujos de trabajo estándares

Herramienta Datos de entradaInput Data Tool

Procesamiento de flujo de trabajo en base de datos

Herramienta Conexión En-BD

Herramienta Entrada de flujo de datos

Soporte de lectura

Soporte de escritura

Configurar la pestaña Escribir

Conexión masiva de Databricks Delta Lake

Resultados de la búsqueda