Databricks
Tipo de conexión | ODBC (64 bits) |
Requisitos de configuración del controlador | El host debe ser un nombre de host del servidor de JDBC/ODBC del clúster de Databricks. Para lograr un rendimiento óptimo, debes habilitar la opción SQLPrepare rápido en las opciones avanzadas del controlador a fin de que Alteryx pueda recuperar los metadatos sin ejecutar una consulta. La casilla de verificación Traducción habilitada para CTAS debe estar desmarcada en el DSN. Está habilitada de forma predeterminada. Para usar el Generador de consultas visuales, selecciona la opción Obtener tablas con consulta en olas pciones avanzadas del controlador. Es compatible con AWS y Azure. |
Tipo de soporte | Lectura y escritura; en base de datos |
Se validó el | Clúster interactivo de Databricks y de punto de conexión de SQL, controlador de Apache Spark con Simba 2.06.23. |
Herramientas de Alteryx utilizadas para establecer conexiones
Procesamiento de flujos de trabajo estándares
Procesamiento de flujo de trabajo en base de datos
Herramienta Conexión En-BD
Herramienta Entrada de flujo de datos
Si tienes problemas con la lectura o la escritura de caracteres Unicode®, accede al controlador ODBC de Impala con Simba. En Opciones avanzadas, selecciona Usar tipos Unicode de SQL.
El controlador controla la longitud de la cadena. Puedes cambiarla en las opciones avanzadas del DSN del ODBC o a través de las opciones avanzadas de la configuración del controlador, que puedes encontrar en la carpeta de instalación pertinente.
Soporte de lectura
Instala y configura el controlador ODBC de Apache Spark:
Tipo de servidor Spark: selecciona el tipo de servidor apropiado para la versión de Apache Spark que estás ejecutando. Si estás ejecutando Apache Spark 1.1 y versiones posteriores, selecciona Apache Spark Thrift Server.
Mecanismo de autenticación: consulta la guía de instalación descargada con el controlador de Apache Spark con Simba para modificar estos ajustes en función de tu configuración.
Para configurar las opciones avanzadas del controlador, consulta la guía de instalación descargada con el controlador de Apache Spark con Simba.
Soporte de escritura
Utiliza la herramienta Entrada de flujo de datos a fin de escribir en Databricks, tanto para flujos de trabajo en base de datos como para flujos de trabajo estándares. El soporte de escritura se proporciona a través del cargador masivo de Databricks. Ve a Administrar conexiones En-BD - Escribir.
Configurar la pestaña Escribir
Selecciona Cargador masivo de Databricks (Avro) o Cargador masivo de Databricks (CVS). Para escribir una tabla con nombres de campo que suman más de 4000 caracteres, utiliza CSV en lugar de Avro. El delimitador usado para CSV es el carácter de inicio del encabezado (SOH).
Selecciona la lista desplegable Cadena de conexión y, a continuación, selecciona Nueva conexión de Databricks.
Selecciona una fuente de datos de ODBC existente o selecciona Administrador de ODBC para crear una.
Ingresa un nombre de usuario y una contraseña. Estos campos no pueden quedar en blanco.
Ingresa la URL de Databricks:
https://abc-abc123-123a.cloud.databricks.com
Aviso
Si incluyes un “/” al final de la URL (por ejemplo, https://abc-abc123-123a.cloud.databricks.com/) ocurrirá un error.
Conexión masiva de Databricks Delta Lake
Sigue los pasos a continuación para configurar la conexión masiva de Databricks Delta Lake.
Importante
La conexión masiva de Databricks Delta Lake solo está disponible en Designer 2022.1 y versiones posteriores.
Selecciona Cargador masivo de Databricks Delta Lake (Avro) o Cargador masivo de Databricks Delta Lake (CSV) para escribir una tabla con nombres de campos que suman más de 4000 caracteres.
Selecciona la lista desplegable Cadena de conexión y, a continuación, selecciona Nueva conexión de base de datos.
Selecciona una fuente de datos de ODBC existente o selecciona Administrador de ODBC para crear una.
Ingresa un nombre de usuario y una contraseña. Estos campos no pueden quedar en blanco. Alteryx admite los tokens de acceso personales. El nombre de usuario es “token” y la contraseña es el token de acceso personal.
Selecciona un método de ensayo (compatible con AWS y Azure):
Para Amazon S3:
Ingresa la clave de acceso de AWS y la clave secreta para autenticar.
Selecciona un punto de conexión o déjalo como Predeterminado.
Selecciona Utilizar Signature V4 para la autenticación.
Selecciona el grado necesario de Cifrado en el lado del servidor. El valor predeterminado es Ninguno.
Selecciona un nombre de bucket para usarlo como la ubicación de ensayo.
Para Azure ADLS:
Importante
En el caso de la carga masiva de Azure solo se admite ADLS Gen 2.
Selecciona el contenedor de ADLS.
Ingresa la clave compartida.
Ingresa la cuenta de almacenamiento.
Ingresa un Directorio temporal opcional. Cuando ingreses el directorio temporal, no repitas el nombre del contenedor.
Ejemplo
Si la estructura de las carpetas es Container/MyTempFolder/TempTables, solo escribe “MyTempFolder/TempTables”.
Si el directorio ingresado aquí no existe, Alteryx creará uno.
Alteryx creará una subcarpeta con el nombre de la tabla para cada tabla que se utiliza en el ensayo.
Para aplicar los cambios, selecciona Aceptar.