Databricks Unity Catalog
Tipo de conexión | ODBC (64 bits) |
Requisitos de configuración del controlador | El host debe ser un nombre de host del servidor de JDBC/ODBC del clúster de Databricks Unity Catalog. Es compatible con AWS y Azure. |
Tipo de soporte | Lectura y escritura; en base de datos |
Se validó el | Clúster de Databricks y SQL Warehouse, controlador de Apache Spark con Simba 2.6.23. |
Detalles del controlador
El procesamiento en base de datos requiere controladores de base de datos de 64 bits.
Herramientas de Alteryx utilizadas para establecer conexiones
Procesamiento de flujos de trabajo estándares
Procesamiento de flujo de trabajo en base de datos
Aviso
Databricks Unity Catalog support is only supported using DCM.
Databricks Unity Catalog is only supported using DSN-less connections.
Writing to Databricks Unity Catalog is only supported using the In-DB tools.
We support MergeInDB for Databricks Unity Catalog, go to Write Data In-DB Tool.
Configurar herramienta Entrada
La herramienta utiliza la tecnología de conexión ODBC de Apache Spark sin DSN con Simba Databricks Unity Catalog en DCM.
Verifica que DCM esté habilitado.
En la herramienta Entrada, selecciona Configurar una conexión.
Selecciona la pestaña Fuentes de datos.
Selecciona la opción Conexión rápida en Databricks Unity Catalog.
El Administrador de conexión de DCM está prefiltrado para mostrar solo las conexiones de ODBC de Apache Spark sin DSN con Simba Databricks Unity Catalog.
Elige una conexión de DCM existente o selecciona +Nuevo para crear una conexión nueva. Consulta la información a continuación para configurar una conexión nueva usando DCM.
Se carga la ventana Elegir tabla o especificar consulta y permite seleccionar las tablas.
Configurar conexión en-BD
Abre el Administrador de conexiones en-BD.
Selecciona Databricks Unity Catalog en la lista desplegable Fuente de datos.
Selecciona Nuevo para crear una nueva conexión.
Ingresa un nombre de conexión.
En la pestaña Leer, selecciona Configurar conexión para abrir el administrador de conexión de DCM de Databricks Unity Catalog. El Administrador de conexión de DCM está prefiltrado para mostrar solo las conexiones de ODBC de Apache Spark sin DSN con Simba Databricks Unity Catalog.
Selecciona una conexión existente o haz clic en +Nuevo para crear una conexión nueva. Consulta la información a continuación para configurar una conexión nueva usando DCM.
En la pestaña Escribir, selecciona Configurar conexión a fin de abrir el administrador de conexión de DCM para la conexión con Databricks. El Administrador de conexión de DCM está prefiltrado para mostrar solo las conexiones ODBC de carga masiva de Apache Spark sin DSN con Simba Databricks Unity Catalog.
Selecciona una conexión existente o selecciona +Nuevo para crear una conexión nueva. Consulta la información a continuación para configurar una conexión nueva usando DCM.
En la pestaña Escribir, selecciona Configurar conexión a fin de abrir el administrador de conexión de DCM para la conexión con Delta Lake. El Administrador de conexión de DCM está prefiltrado para mostrar solo las conexiones de Delta Lake.
Selecciona una conexión existente o selecciona +Nuevo para crear una conexión nueva. Consulta la información a continuación para configurar una conexión nueva usando DCM.
Selecciona Aplicar y Aceptar para guardar la conexión y cerrar la ventana.
Si accediste al Administrador de conexión En-BD desde la herramienta Conexión En-BD, se carga la ventana Elegir tabla o especificar consulta y permite seleccionar tablas.
Note: Databrick Unity Catalog requires the following permissions for least privileged access to READ:
Information Schema (Default)
USE CATALOG for CATALOG
USE SCHEMA for SCHEMA
BROWSE (Default) for Corresponding tables
SELECT for Corresponding tables
Configurar ODBC de Apache Spark sin DSN con Simba Databricks Unity Catalog en DCM
Esta conexión se utiliza para leer datos de Databricks Unity Catalog.
Abre el Administrador de conexiones de datos y navega a ODBC de Apache Spark sin DSN con Simba Databricks Unity Catalog.
El DCM está prefiltrado desde una herramienta Entrada o el Administrador de conexión En-BD.
Desde el menú Archivo, ve a Archivo > Administrar conexiones > +Nuevo > Apache Spark > ODBC de Apache Spark sin DSN con Simba Databricks Unity Catalog.
Ingresa un Nombre de la fuente de datos.
Ingresa el nombre del host de Databricks Unity Catalog.
El puerto está configurado en 443 de forma predeterminada. Cámbialo si es necesario.
Ingresa la ruta http, es decir, la URL de recursos de cómputo de Databricks.
Selecciona Guardar para guardar la Fuente de datos.
Selecciona +Conectar credencial.
Selecciona un Método de autenticación.
Para usar un token de acceso personal, selecciona Nombre de usuario y contraseña como el método de autenticación y cambia el nombre de usuario a “token”.
Para usar Azure AD, consulta Autenticación OAuth de Azure para Databricks.
Selecciona una credencial existente o Crear nueva credencial para crear una credencial nueva e ingresa el token de acceso personal o la información de Azure AD.
Selecciona Vincular para vincular la credencial a la fuente de datos y selecciona Conectar.
Configurar ODBC de carga masiva de Apache Spark sin DSN con Simba Databricks Unity Catalog en DCM
Esta conexión se utiliza para escribir datos de Databricks Unity Catalog.
Abre el Administrador de conexiones de datos y navega a ODBC de carga masiva de Apache Spark sin DSN con Simba Databricks Unity Catalog.
El DCM está prefiltrado desde una herramienta Entrada o el Administrador de conexión En-BD.
Desde el menú Archivo, ve a Archivo > Administrar conexiones > +Nuevo > Apache Spark > ODBC de Apache Spark sin DSN con Simba Databricks Unity Catalog.
Ingresa un Nombre de la fuente de datos.
Ingresa el nombre del host de Databricks Unity Catalog.
El puerto está configurado en 443 de forma predeterminada. Cámbialo si es necesario.
Ingresa la ruta http, es decir, la URL de recursos de cómputo de Databricks.
Ingresa el catálogo. Esto establece el catálogo que se utiliza para escribir los datos y crear las tablas.
Ingresa el esquema. Esto establece el esquema que se utiliza para escribir los datos y crear las tablas.
Selecciona Guardar para guardar la Fuente de datos.
Selecciona +Conectar credencial para agregar una credencial.
Selecciona un Método de autenticación.
Para usar un token de acceso personal, selecciona Nombre de usuario y contraseña como el método de autenticación y cambia el nombre de usuario a “token”.
Para usar Azure AD, consulta Autenticación OAuth de Azure para Databricks.
Selecciona una credencial existente o Crear nueva credencial para crear una credencial nueva e ingresa el token de acceso personal o la información de Azure AD.
Selecciona Vincular para vincular la credencial a la fuente de datos.
Para conectarte, selecciona Conectar.
Configurar conexión a Delta Lake en DCM
Esta conexión se utiliza para realizar un ensayo con los datos en AWS S3 o ADLS.
Abre el Administrador de conexiones de datos y navega hasta Delta Lake en AWS o Delta Lake en Azure.
El DCM está prefiltrado desde una herramienta Entrada o el Administrador de conexión En-BD.
Desde el menú Archivo, ve a Archivo > Administrar conexiones > +Nuevo > Delta Lake > Delta Lake en AWS/Delta Lake en Azure.
Realiza estos pasos para Delta Lake en AWS:
Ingresa un Nombre de la fuente de datos.
Ingresa un punto de conexión o déjalo como Predeterminado. Cuando se utiliza el valor Predeterminado, Amazon determina el punto de conexión según el bucket seleccionado.
Verifica que Utilizar Signature V4 para la autenticación esté seleccionado, a menos que se indique lo contrario de forma específica. Si no está marcado, se utiliza Signature V2. Las regiones creadas después del 30 de enero de 2014 solo admiten Signature Version 4. Las siguientes regiones requieren autenticación de Signature Version 4:
Región del este de los EE. UU. (Ohio).
Región de Canadá (central).
Región de Asia-Pacífico (Bombay).
Región de Asia-Pacífico (Seúl).
Región de la UE (Fráncfort).
Región de la UE (Londres).
Región de China (Pekín).
Selecciona el grado necesario de Cifrado en el lado del servidor. El valor predeterminado es Ninguno.
Ninguno (predeterminado): no se utiliza ningún método de cifrado.
SSE-KMS: utiliza la encriptación del servidor con las claves administradas por AWS KMS. También puedes proporcionar un Id. de clave de KMS. Cuando seleccionas este método, debes seleccionar Utilizar Signature V4 para la autenticación.
Ingresa el nombre del bucket que utilizarás en el ensayo. El usuario debe tener permisos de lectura, escritura y eliminación en el bucket.
Realiza estos pasos para Delta Lake en Azure:
Ingresa el nombre de la fuente de datos, el contenedor de ADLS y la cuenta de almacenamiento.
El directorio temporal de almacenamiento es opcional. Cuando ingreses el directorio temporal, no repitas el nombre del contenedor. Si el directorio ingresado aquí no existe, Alteryx creará uno. Alteryx crea una subcarpeta con el nombre de la tabla para cada tabla que se utiliza en el ensayo.
Selecciona Guardar para guardar la Fuente de datos.
Selecciona +Conectar credencial.
Selecciona un Método de autenticación.
Para Delta Lake en AWS, el único método de autenticación son las claves de acceso para usuarios IAM de AWS.
Para Delta Lake en Azure, puedes seleccionar entre Clave de acceso compartida o autenticación de Azure AD.
Selecciona una credencial existente o Crear nueva credencial para crear una credencial nueva.
Ingresa un nombre de credencial y las claves de acceso para usuarios IAM de AWS o la clave compartida de Azure.
Selecciona Vincular para vincular la credencial a la fuente de datos.
Selecciona Conectar.