Skip to main content

Databricks

Tipo di connessione

ODBC (64 bit)

Requisiti di configurazione del driver

L'host deve essere un nome host del server JDBC/ODBC del cluster Databricks.

Per prestazioni ottimali, devi abilitare l'opzione Fast SQLPrepare (Preparazione SQL all'interno rapida) nelle opzioni avanzate del driver per consentire ad Alteryx di recuperare i metadati senza eseguire una query.

La casella di spunta Conversione abilitata per CTAS deve essere deselezionata nel DSN. È selezionata per impostazione predefinita.

Per utilizzare Visual Query Builder, seleziona l'opzione Get Tables With Query (Ottieni tabelle con query) nelle opzioni avanzate del driver.

Supportato sia per AWS che per Azure.

Tipo di supporto

Lettura e scrittura, In-Database

Convalidato su

Cluster Databricks Interactive e SQL Endpoint, Driver Simba Apache Spark 2.06.23.

Strumenti Alteryx utilizzati per Connect

Elaborazione del flusso di lavoro standard

Input Data Tool Icon

Collegamento

Elaborazione del flusso di lavoro In-Database

Strumento Connetti In-DB

Blue icon with database being plugged in.

Collegamento

Strumento Flusso di dati in entrata

Blue icon with a stream-like object flowing into a database.

Collegamento

In caso di problemi di lettura o scrittura dei caratteri Unicode®, accedi al driver ODBC Simba per Impala. In Advanced Options (Opzioni avanzate) , seleziona Use SQL Unicode Types (Usa tipi SQL Unicode) .

La lunghezza della stringa è controllata dal driver. Puoi cambiarla nelle opzioni avanzate per il DSN ODBC o tramite le opzioni avanzate per la configurazione del driver, che puoi trovare nella cartella di installazione del driver.

Supporto di lettura

Installa e configura il driver ODBC Apache Spark:

  • Spark Server Type (Tipo di server Spark) : seleziona il tipo di server appropriato per la versione di Apache Spark in uso. Se utilizzi Apache Spark 1.1 e versioni successive, seleziona Apache SparkThriftServer.

  • Authentication Mechanism (Meccanismo di autenticazione) : consulta la guida all'installazione scaricata con il driver Simba per Apache Spark per configurare questa impostazione in base tua installazione.

Per configurare le opzioni avanzate del driver, consulta la guida all'installazione scaricata con il driver Simba per Apache Spark.

Supporto di scrittura

Per i flussi di lavoro standard e In-Database, utilizza lo strumento Flusso di dati in entrata per scrivere in Databricks. Il supporto di scrittura avviene tramite Databricks Bulk Loader. Accedi a Gestisci connessioni In-DB - Scrittura .

Configurazione della scheda Scrittura

  1. Seleziona Databricks Bulk Loader (Avro) o Databricks Bulk Loader (CSV) . Per scrivere una tabella con nomi dei campi per un totale di oltre 4000 caratteri, utilizza CSV anziché Avro. Il delimitatore utilizzato per CSV è il carattere di inizio intestazione (SOH).

  2. Seleziona l'elenco a discesa Stringa di connessione e quindi scegli Nuova connessione Databricks .

  3. Seleziona un'origine dati ODBC esistente o scegli Amministratore ODBC per crearne una.

  4. Inserisci un nome utente e una password. Questi campi non possono essere vuoti.

  5. Immetti l'URL di Databricks

    https://abc-abc123-123a.cloud.databricks.com

    Avvertimento

    Se includi una barra "/" finale nell'URL (ad esempio https://abc-abc123-123a.cloud.databricks.com /), si verificherà un errore.

Connessione in blocco di Databricks Delta Lake

Segui i passaggi riportati di seguito per configurare la connessione in blocco di Databricks Delta Lake.

Importante

La connessione in blocco di Databricks Delta Lake è disponibile solo in Designer 2022.1 e versioni successive.

  1. Seleziona Databricks Delta Lake Bulk Loader (Avro) o Databricks Delta Lake Bulk Loader (CSV) . Per scrivere una tabella con nomi dei campi per un totale di oltre 4000 caratteri, utilizza CSV anziché Avro.

  2. Seleziona l'elenco a discesa Stringa di connessione e quindi scegli Nuova connessione al database .

  3. Seleziona un'origine dati ODBC esistente o scegli Amministratore ODBC per crearne una.

  4. Inserisci un nome utente e una password. Questi campi non possono essere vuoti. Alteryx supporta i token di accesso personali. Il nome utente è "token". La password è il token di accesso personale.

  5. Seleziona un metodo di staging (supportato sia per AWS che per Azure):

    1. Per Amazon S3

      1. Immetti la chiave di accesso AWS e la chiave segreta per l'autenticazione.

      2. Seleziona un endpoint o lascia l'impostazione su Predefinito .

      3. Seleziona Usa Signature V4 per l'autenticazione .

      4. Seleziona il livello di crittografia lato server necessario. L'impostazione predefinita è Nessuna.

      5. Seleziona un nome in Nome contenitore da utilizzare come posizione di staging.

    2. Per Azure ADLS

      Importante

      Per il caricamento in blocco per Azure è disponibile solo il supporto ADLS Gen2 .

      1. Seleziona il contenitore ADLS .

      2. Immetti la chiave condivisa .

      3. Immetti l' account di archiviazione .

      4. Immetti una directory temporanea opzionale. Quando immetti la directory temporanea, non ripetere il nome del contenitore .

        Esempio

        Se la struttura della cartella è Container/MyTempFolder/TempTables, immetti solo "MyTempFolder/TempTables".

        Se la directory immessa qui non esiste già, Alteryx ne crea una.

        Alteryx crea una sottocartella con il nome della tabella per ogni tabella sottoposta a staging.

    3. Seleziona OK per applicare le impostazioni.