Skip to main content

Databricks

Tipo di connessione

ODBC (64 bit)

Requisiti di configurazione del driver

L'host deve essere un nome host del server JDBC/ODBC del cluster Databricks.

Per prestazioni ottimali, devi abilitare l'opzione Fast SQLPrepare (Preparazione SQL rapida) nelle opzioni avanzate del driver per consentire ad Alteryx di recuperare i metadati senza eseguire una query.

La casella di spunta Conversione abilitata per CTAS deve essere deselezionata nel DSN. È selezionata per impostazione predefinita.

Per utilizzare Visual Query Builder, seleziona l'opzione Get Tables With Query (Ottieni tabelle con query) nelle opzioni avanzate del driver.

Supportato sia per AWS che per Azure.

Tipo di supporto

Lettura e scrittura, In-Database

Convalidato su

Cluster Databricks Interactive e SQL Endpoint, Driver Simba Apache Spark 2.06.23.

Strumenti Alteryx utilizzati per Connect

Elaborazione del flusso di lavoro standard

Elaborazione del flusso di lavoro In-Database

In caso di problemi di lettura o scrittura dei caratteri Unicode®, accedi al driver ODBC Simba per Impala. In Advanced Options (Opzioni avanzate) , seleziona Use SQL Unicode Types (Usa tipi SQL Unicode) .

La lunghezza della stringa è controllata dal driver. Puoi cambiarla nelle opzioni avanzate per il DSN ODBC o tramite le opzioni avanzate per la configurazione del driver, che puoi trovare nella cartella di installazione del driver.

Supporto di lettura

Installa e configura il driver ODBC Apache Spark:

  • Spark Server Type (Tipo di server Spark) : seleziona il tipo di server appropriato per la versione di Apache Spark in uso. Se utilizzi Apache Spark 1.1 e versioni successive, seleziona Apache SparkThriftServer.

  • Authentication Mechanism (Meccanismo di autenticazione) : consulta la guida all'installazione scaricata con il driver Simba per Apache Spark per configurare questa impostazione in base tua installazione.

Per configurare le opzioni avanzate del driver, consulta la guida all'installazione scaricata con il driver Simba per Apache Spark.

Supporto scrittura

Per i flussi di lavoro standard e In-Database, utilizza lo strumento Flusso di dati in entrata per scrivere in Databricks. Il supporto di scrittura avviene tramite Databricks Bulk Loader. Accedi a Gestisci connessioni In-DB - Scrittura .

Configurazione della scheda Scrittura

  1. Seleziona Databricks Bulk Loader (Avro) o Databricks Bulk Loader (CSV) . Per scrivere una tabella con nomi dei campi per un totale di oltre 4000 caratteri, utilizza CSV anziché Avro. Il delimitatore utilizzato per CSV è il carattere di inizio intestazione (SOH).

  2. Seleziona l'elenco a discesa Stringa di connessione e quindi scegli Nuova connessione Databricks .

  3. Seleziona un'origine dati ODBC esistente o scegli Amministratore ODBC per crearne una.

  4. Inserisci un nome utente e una password. Questi campi non possono essere vuoti.

  5. Immetti l'URL di Databricks

    https://abc-abc123-123a.cloud.databricks.com

    Avvertimento

    Se includi una barra "/" finale nell'URL (ad esempio https://abc-abc123-123a.cloud.databricks.com /), si verificherà un errore.

Connessione in blocco di Databricks Delta Lake

Con Designer 2024.1 la connessione a Redshift Bulk supporta l'autenticazione AWS IAM (Identity and Access Management).

Segui i passaggi riportati di seguito per configurare la connessione in blocco di Databricks Delta Lake.

Importante

La connessione in blocco di Databricks Delta Lake è disponibile solo in Designer 2022.1 e versioni successive.

  1. Seleziona Databricks Delta Lake Bulk Loader (Avro) o Databricks Delta Lake Bulk Loader (CSV) . Per scrivere una tabella con nomi dei campi per un totale di oltre 4000 caratteri, utilizza CSV anziché Avro.

  2. Seleziona l'elenco a discesa Stringa di connessione e quindi scegli Nuova connessione al database .

  3. Seleziona un'origine dati ODBC esistente o scegli Amministratore ODBC per crearne una.

  4. Inserisci un nome utente e una password. Questi campi non possono essere vuoti. Alteryx supporta i token di accesso personali. Il nome utente è "token". La password è il token di accesso personale.

  5. Seleziona un metodo di staging (supportato sia per AWS che per Azure):

    1. Per Amazon S3

      1. Immetti la chiave di accesso AWS e la chiave segreta per l'autenticazione.

      2. Seleziona un endpoint o lascia l'impostazione su Predefinito .

      3. Seleziona Usa Signature V4 per l'autenticazione .

      4. Seleziona il livello di crittografia lato server necessario. L'impostazione predefinita è Nessuna.

      5. Seleziona un nome in Nome contenitore da utilizzare come posizione di staging.

        Con Designer 2024.1 Databricks Bulk Loader supporta l'autenticazione AWS IAM (Identity and Access Management).

    2. Per Azure ADLS

      Importante

      Per il caricamento in blocco per Azure è disponibile solo il supporto ADLS Gen2 .

      1. Seleziona il contenitore ADLS .

      2. Immetti la chiave condivisa .

      3. Immetti l' account di archiviazione .

      4. Immetti una directory temporanea opzionale. Quando immetti la directory temporanea, non ripetere il nome del contenitore .

        Esempio

        Se la struttura della cartella è Container/MyTempFolder/TempTables, immetti solo "MyTempFolder/TempTables".

        Se la directory immessa qui non esiste già, Alteryx ne crea una.

        Alteryx crea una sottocartella con il nome della tabella per ogni tabella sottoposta a staging.

    3. Seleziona OK per applicare le impostazioni.

      Con Designer 2023.2, Databricks Bulk Loader supporta l'autenticazione di Azure AD per lo staging ADLS . Questa funzionalità migliora la sicurezza di Databricks Bulk Loader consentendo alle organizzazioni di gestire in modo granulare l'accesso ai singoli contenitori all'interno di un account di archiviazione.

      Per ulteriori informazioni su come utilizzare l'autenticazione di Azure AD per lo staging ADLS con Databricks Bulk Loader, consulta questa pagina della community.