Databricks

Per le opzioni di autenticazione di Databricks, consulta la Guida di Alteryx & Databricks.

Tipo di connessione	ODBC (64 bit)
Requisiti di configurazione del driver	L'host deve essere un nome host del server JDBC/ODBC del cluster Databricks. Per prestazioni ottimali, devi abilitare l'opzione Fast SQLPrepare (Preparazione SQL rapida) nelle opzioni avanzate del driver per consentire ad Alteryx di recuperare i metadati senza eseguire una query. La casella di spunta Conversione abilitata per CTAS deve essere deselezionata nel DSN. È selezionata per impostazione predefinita. Per utilizzare Visual Query Builder, seleziona l'opzione Get Tables With Query (Ottieni tabelle con query) nelle opzioni avanzate del driver. Supportato sia per AWS che per Azure.
Tipo di supporto	Lettura e scrittura, In-Database
Convalidato su	Cluster Databricks Interactive e SQL Endpoint, Driver Simba Apache Spark 2.7.7.1017.

Strumenti Alteryx utilizzati per Connect

Elaborazione del flusso di lavoro standard

Strumento Dati di input

Elaborazione del flusso di lavoro In-Database

In caso di problemi di lettura o scrittura dei caratteri Unicode®, accedi al driver ODBC Simba per Impala. In Advanced Options (Opzioni avanzate), seleziona Use SQL Unicode Types (Usa tipi SQL Unicode).

La lunghezza della stringa è controllata dal driver. Puoi cambiarla nelle opzioni avanzate per il DSN ODBC o tramite le opzioni avanzate per la configurazione del driver, che puoi trovare nella cartella di installazione del driver.

Importante

Il driver Databricks ODBC (il successore rinominato del driver Simba Spark ODBC) non è attualmente supportato dal connettore Databricks in Alteryx Designer e non funziona con esso. Il supporto è previsto per una futura release di Alteryx Designer; le tempistiche saranno comunicate separatamente. Continua a utilizzare il driver Simba Spark ODBC fino a quando non sarà disponibile una versione più recente.

Supporto di lettura

Installa e configura il driver ODBC Apache Spark:

Spark Server Type (Tipo di server Spark): seleziona il tipo di server appropriato per la versione di Apache Spark in uso. Se utilizzi Apache Spark 1.1 e versioni successive, seleziona Apache SparkThriftServer.
Authentication Mechanism (Meccanismo di autenticazione): consulta la guida all'installazione scaricata con il driver Simba per Apache Spark per configurare questa impostazione in base tua installazione.

Per configurare le opzioni avanzate del driver, consulta la guida all'installazione scaricata con il driver Simba per Apache Spark.

Supporto scrittura

Per i flussi di lavoro standard e In-Database, utilizza lo strumento Flusso di dati in entrata per scrivere in Databricks. Il supporto di scrittura avviene tramite Databricks Bulk Loader. Accedi a Gestisci connessioni In-DB - Scrittura.

Configurazione della scheda Scrittura

Seleziona Databricks Bulk Loader (Avro) o Databricks Bulk Loader (CSV). Per scrivere una tabella con nomi dei campi per un totale di oltre 4000 caratteri, utilizza CSV anziché Avro. Il delimitatore utilizzato per CSV è il carattere di inizio intestazione (SOH).
Seleziona l'elenco a discesa Stringa di connessione e quindi scegli Nuova connessione Databricks.
Seleziona un'origine dati ODBC esistente o scegli Amministratore ODBC per crearne una.
Inserisci un nome utente e una password. Questi campi non possono essere vuoti.
Immetti l'URL di Databricks
https://abc-abc123-123a.cloud.databricks.com
Avvertimento
Se includi una barra "/" finale nell'URL (ad esempio https://abc-abc123-123a.cloud.databricks.com/), si verificherà un errore.

Connessione in blocco di Databricks Delta Lake

Con Designer 2024.1, la connessione in blocco a Redshift supporta l'autenticazione AWS IAM (Identity and Access Management).

Segui i passaggi riportati di seguito per configurare la connessione in blocco di Databricks Delta Lake.

Importante

La connessione in blocco di Databricks Delta Lake è disponibile solo in Designer 2022.1 e versioni successive.

Seleziona Databricks Delta Lake Bulk Loader (Avro) o Databricks Delta Lake Bulk Loader (CSV). Per scrivere una tabella con nomi dei campi per un totale di oltre 4000 caratteri, utilizza CSV anziché Avro.
Seleziona l'elenco a discesa Stringa di connessione e quindi scegli Nuova connessione al database.
Seleziona un'origine dati ODBC esistente o scegli Amministratore ODBC per crearne una.
Inserisci un nome utente e una password. Questi campi non possono essere vuoti. Alteryx supporta i token di accesso personali. Il nome utente è "token". La password è il token di accesso personale.
Seleziona un metodo di staging (supportato sia per AWS che per Azure):
1. Per Amazon S3
  1. Inserisci la chiave di accesso AWS e la chiave segreta per l'autenticazione.
  2. Seleziona un endpoint o lascia l'impostazione su Predefinito.
  3. Seleziona Usare la firma V4 per l'autenticazione.
  4. Seleziona il livello di crittografia lato server necessario. L'impostazione predefinita è Nessuna.
  5. Seleziona un nome in Nome contenitore da utilizzare come posizione di staging.
    Con Designer 2024.1, Databricks Bulk Loader supporta l'autenticazione AWS IAM (Identity and Access Management).
2. Per Azure ADLS
  Importante
  Per il caricamento in blocco per Azure è disponibile solo il supporto ADLS Gen2.
  1. Seleziona il contenitore ADLS.
  2. Immetti la chiave condivisa.
  3. Immetti l'account di archiviazione.
  4. Immetti una directory temporanea opzionale. Quando immetti la directory temporanea, non ripetere il nome del contenitore.
    Esempio
    Se la struttura della cartella è Container/MyTempFolder/TempTables, immetti solo "MyTempFolder/TempTables".
    Se la directory immessa qui non esiste già, Alteryx ne crea una.
    Alteryx crea una sottocartella con il nome della tabella per ogni tabella sottoposta a staging.
3. Seleziona OK per applicare le impostazioni.
  Con Designer 2023.2, Databricks Bulk Loader supporta l'autenticazione di Azure AD per lo staging ADLS. Questa funzionalità migliora la sicurezza di Databricks Bulk Loader consentendo alle organizzazioni di gestire in modo granulare l'accesso ai singoli contenitori all'interno di un account di archiviazione.

Parametri senza DSN

I parametri senza DSN in DCM for Databricks consentono la replica delle configurazioni ODBC sicure esistenti e la migrazione senza problemi.

ssl=1
UseSystemTrustStore=1
ThriftTransport=2
AllowSelfSignedServerCert=1
UseUnicodeSqlCharacterTypes=1

Configurare i dettagli del proxy

Quando si crea o modifica una connessione Databricks, è possibile specificare i dettagli del server proxy. Queste impostazioni vengono trasmesse al driver Simba ODBC per stabilire la connessione.

Sono disponibili i seguenti campi proxy:

Host proxy: il nome host del server proxy.
Porta proxy: numero di porta utilizzato dal server proxy.
Nome utente proxy: credenziali del nome utente per l'autenticazione proxy.
Password proxy: credenziali della password per l'autenticazione proxy.

Nota

Queste impostazioni si applicano solo alle connessioni Databricks. Altre fonti di dati non utilizzano queste configurazioni proxy.

In questa sezione: