Skip to main content

Databricks Unity Catalog

Tipo di connessione

ODBC (64 bit)

Requisiti di configurazione del driver

L'host deve essere un nome host del server JDBC/ODBC del cluster Databricks Unity Catalog.

Supportato sia per AWS che per Azure.

Tipo di supporto

Lettura e scrittura, In-Database

Convalidato su

Cluster Databricks e SQL Warehouse, driver Simba per Apache Spark 2.9.4,1013

Dettagli driver

L'elaborazione In-Database richiede driver di database a 64 bit.

Strumenti Alteryx utilizzati per Connect

Elaborazione del flusso di lavoro standard

Elaborazione del flusso di lavoro In-Database

Nota

Il supporto di Databricks Unity Catalog è disponibile solo tramite DCM.

Databricks Unity Catalog è supportato solo con connessioni senza DSN.

La scrittura in Databricks Unity Catalog è supportata solo con gli strumenti In-DB.

Supportiamo la funzione MergeInDB per Databricks Unity Catalog. Vai a Strumento Scrivi dati In-DB.Blue icon with floppy disk. Strumento Scrivi dati In-DB

Configurazione dello strumento di input

Lo strumento utilizza la tecnologia di connessione Apache Spark ODBC senza DSN con Simba Databricks Unity Catalog in DCM.

  1. Assicurati che DCM sia abilitato.

  2. Nello strumento di input, seleziona Configura una connessione.

  3. Seleziona la scheda Origini dati.

  4. Seleziona l'opzione Connessione rapida in Databricks Unity Catalog.

  5. DCM Connection Manager è prefiltrato per mostrare solo le connessioni Apache Spark ODBC senza DSN con Simba Databricks Unity Catalog.

  6. Scegli una connessione DCM esistente o seleziona + Nuova per creare una nuova connessione. Vedi di seguito per configurare una nuova connessione con DCM.

  7. Viene caricata la finestra Scegli una tabella o specifica una query per la selezione di tabelle.

Configurazione della connessione In-DB

  1. Apri In-DB Connection Manager.

  2. Seleziona Databricks Unity Catalog nel menu a discesa delle origini dati.

  3. Seleziona Nuova per creare una nuova connessione.

  4. Inserisci un nome in Nome connessione.

  5. Nella scheda Lettura, seleziona Configura connessione per aprire DCM Connection Manager per Databricks Unity Catalog. DCM Connection Manager è prefiltrato per mostrare solo le connessioni Apache Spark ODBC senza DSN con Simba Databricks Unity Catalog.

  6. Seleziona una connessione esistente o fai clic su + Nuova per creare una nuova connessione. Vedi di seguito per configurare una nuova connessione con DCM.

  7. Nella scheda Scrittura, seleziona Configura connessione per aprire DCM Connection Manager per la connessione a Databricks. DCM Connection Manager è prefiltrato per mostrare solo le connessioni Apache Spark ODBC Bulk senza DSN con Simba Databricks Unity Catalog.

  8. Seleziona una connessione esistente o scegli + Nuova per creare una nuova connessione. Vedi di seguito per configurare una nuova connessione con DCM.

  9. Nella scheda Scrittura, seleziona Configura connessione per aprire DCM Connection Manager per la connessione a Delta Lake. DCM Connection Manager è prefiltrato per mostrare solo le connessioni Delta Lake.

  10. Seleziona una connessione esistente o scegli + Nuova per creare una nuova connessione. Vedi di seguito per configurare una nuova connessione con DCM.

  11. Seleziona Applica e OK per salvare la connessione e chiudere la finestra.

  12. Se l'accesso a In-DB Connection Manager è stato eseguito con lo strumento Connetti In-DB, viene caricata la finestra Scegli una tabella o specifica una query per la selezione di tabelle.

Nota: per l'accesso al comando LEGGI in base al principio del privilegio minimo, Databrick Unity Catalog richiede le autorizzazioni seguenti:

  • Schema Informazioni (predefinito)

  • USO CATALOGO per CATALOGO

  • USO SCHEMA per SCHEMA

  • SFOGLIA (predefinita) per le tabelle corrispondenti

  • SELEZIONA per le tabelle corrispondenti

Configurazione di Apache Spark ODBC senza DSN con Simba Databricks Unity Catalog in DCM

Questa connessione viene utilizzata per la lettura dei dati da Databricks Unity Catalog.

  1. Apri Data Connection Manager (DCM) e passa ad Apache Spark ODBC senza DSN con Simba Databricks Unity Catalog,

    • Da uno strumento di input o da In-DB Connection Manager, DCM è pre-filtrato.

    • Dal menu File, vai a File > Gestisci connessioni > + Nuova > Apache Spark > Apache Spark ODBC senza DSN con Simba Databricks Unity Catalog.

  2. Inserisci un nome origine dati.

  3. Immetti il nome dell'host Databricks Unity Catalog.

  4. La porta è la 443 per impostazione predefinita. Cambiala se necessario.

  5. Immetti il percorso http. Il percorso http è l'URL delle risorse di elaborazione di Databricks.

  6. Seleziona Salva per salvare l'origine dati.

  7. Seleziona + Connetti credenziale.

    • Seleziona un metodo in Metodo di autenticazione.

    • Per utilizzare un token di accesso personale, seleziona Nome utente e password come metodo di autenticazione e utilizza il nome utente "token".

    • Per utilizzare Azure AD, consulta Autenticazione Azure OAuth di Databricks.

    • Seleziona una credenziale esistente o scegli Crea nuova credenziale per creare una nuova credenziale e immetti il token di accesso personale o le informazioni per Azure AD.

  8. Seleziona Collega per collegare la credenziale all'origine dati e scegli Connetti.

Configurazione di Apache Spark ODBC Bulk senza Bulk DSN con Simba Databricks Unity Catalog in DCM

Questa connessione viene utilizzata per la scrittura dei dati in Databricks Unity Catalog.

  1. Apri Data Connection Manager (DCM) e passa ad Apache Spark Bulk ODBC senza DSN con Simba Databricks Unity Catalog.

    • Da uno strumento di input o da In-DB Connection Manager, DCM è pre-filtrato.

    • Dal menu File, vai a File > Gestisci connessioni > + Nuova > Apache Spark > Apache Spark ODBC senza DSN con Simba Databricks Unity Catalog.

  2. Inserisci un nome origine dati.

  3. Immetti il nome dell'host Databricks Unity Catalog.

  4. La porta è la 443 per impostazione predefinita. Cambiala se necessario.

  5. Immetti il percorso http. Il percorso http è l'URL delle risorse di elaborazione di Databricks.

  6. Immetti il Catalogo. In questo modo viene impostato il catalogo utilizzato per la scrittura dei dati e la creazione di tabelle.

  7. Immetti lo Schema. In questo modo viene impostato lo schema utilizzato per la scrittura dei dati e la creazione di tabelle.

  8. Seleziona Salva per salvare l'origine dati.

  9. Seleziona + Connetti credenziale per aggiungere una credenziale.

    • Seleziona un metodo in Metodo di autenticazione.

    • Per utilizzare un token di accesso personale, seleziona Nome utente e password come metodo di autenticazione e utilizza il nome utente "token".

    • Per utilizzare Azure AD, consulta Autenticazione Azure OAuth di Databricks.

    • Seleziona una credenziale esistente o scegli Crea nuova credenziale per creare una nuova credenziale e immetti il token di accesso personale o le informazioni per Azure AD.

  10. Seleziona Collega per collegare la credenziale all'origine dati.

  11. Seleziona Connetti per connetterti.

Configurazione di una connessione Delta Lake in DCM

Questa connessione viene utilizzata per lo staging dei dati in AWS S3 o ADLS.

  1. Apri Data Connection Manager (DCM) e passa a Delta Lake su AWS o Delta Lake su Azure.

    1. Da uno strumento di input o da In-DB Connection Manager, DCM è pre-filtrato.

    2. Dal menu File, vai a File > Gestisci connessioni > + Nuova > Delta Lake > Delta Lake su AWS/Delta Lake su Azure.

  2. Per Delta Lake su AWS

    1. Inserisci un nome origine dati.

    2. Immetti un Endpoint o lascia l'impostazione su Predefinito. Se utilizzi Predefinito, Amazon determina l'endpoint in base al contenitore selezionato.

    3. Assicurati che l'opzione Usa Signature V4 per l'autenticazione sia selezionata, salvo diversamente indicato. Se è deselezionata, viene utilizzato Signature V2. Le aree create dopo il 30 gennaio 2014 supportano solo Signature Version 4. Le aree seguenti richiedono l'autenticazione Signature Version 4:

      • Regione degli Stati Uniti orientali (Ohio),

      • Regione Canada (centrale),

      • Regione Asia-Pacifico (Mumbai),

      • Regione Asia-Pacifico (Seul),

      • Regione UE (Francoforte),

      • Regione UE (Londra),

      • Regione Cina (Pechino).

    4. Seleziona il livello di crittografia lato server necessario. L'impostazione predefinita è Nessuna.

      • Nessuno (opzione predefinita): non viene utilizzato alcun metodo di crittografia.

      • SSE-KMS: utilizza la crittografia lato server con chiavi gestite da AWS KMS. Puoi fornire anche un ID chiave KMS. Quando selezioni questo metodo, l'opzione Usa Signature V4 per l'autenticazione deve essere selezionata.

    5. Specifica un Nome contenitore da utilizzare per lo staging. L'utente deve disporre delle autorizzazioni di lettura, scrittura ed eliminazione per il contenitore.

  3. Per Delta Lake su Azure

    1. Specifica Nome origine dati, Contenitore ADLS e Account di archiviazione.

    2. La directory temporanea di archiviazione è opzionale. Quando immetti la directory temporanea, non ripetere il nome del contenitore. Se la directory immessa qui non esiste già, Alteryx ne crea una. Alteryx crea una sottocartella con il nome della tabella per ogni tabella sottoposta a staging.

  4. Seleziona Salva per salvare l'origine dati.

  5. Seleziona + Connetti credenziale.

    1. Seleziona un metodo in Metodo di autenticazione.

      • Per Delta Lake su AWS, l'unico metodo di autenticazione è Chiavi di accesso AWS IAM.

      • Per Delta Lake su Azure, puoi scegliere l'autenticazione Chiave di accesso condivisa o Azure AD.

    2. Seleziona una credenziale esistente o scegli Crea nuova credenziale per creare una nuova credenziale.

      • Immetti un nome in Nome credenziale e le chiavi di accesso AWS IAM o la chiave condivisa Azure.

  6. Seleziona Collega per collegare la credenziale all'origine dati.

  7. Seleziona Connetti.

Supporto di UPSERT per Databricks

Designer estende lo strumento Unisci In-DB in modo da supportare completamente il comportamento UPSERT per Databricks.

In aggiunta alle operazioni AGGIORNA ed ELIMINA per le righe corrispondenti, ora puoi anche scegliere di INSERIRE le righe non corrispondenti, utilizzando la condizione SE NON CORRISPONDE. In questo modo, hai la possibilità di gestire sia i record corrispondenti che quelli non corrispondenti in un singolo flusso di lavoro.

Configurazione di Scrivi dati In-DB per UPSERT

  • Trascina lo strumento Scrivi dati In-DB sull'area di disegno e imposta la modalità di output su Unisci tabelle.

  • Specifica la tabella di destinazione in Databricks per eseguire l'operazione di unione.

  • Seleziona una o più colonne chiave per abbinare le righe in entrata alle righe di destinazione.

    Esempio:

    people10m.id = people10mupdates.id

  • Configurazione delle azioni

    • SE CORRISPONDE - Specifica se desideri AGGIORNARE o ELIMINARE i record corrispondenti.

    • SE NON CORRISPONDE (facoltativo) - seleziona INSERISCI per inserire le righe non corrispondenti.

  • Avvia il flusso di lavoro per eseguire l'operazione UPSERT in Databricks, che aggiorna, elimina o inserisce i record come specificato.

Importante

La funzione è completamente compatibile con le versioni precedenti. Se non selezioni SE NON CORRISPONDE, Designer si comporta come in precedenza.