Apache Spark su Databricks
Tipo di connessione | Server REST/HTML |
Distribuzioni convalidate su | Databricks |
Dettagli server | Le informazioni su Databricks sono disponibili qui. |
Tipo di supporto | In-Database |
Convalidato su | Client ODBC versione 2.6.23.1039 |
Strumenti Alteryx utilizzati per Connect
Elaborazione del flusso di lavoro In-Database
Connettiti ad Apache Spark trascinando uno strumento Connetti In-DB o Codice di Apache Spark nell'area di disegno. Crea una nuova connessione Livy utilizzando il driver Apache Spark Direct. Per configurare la connessione, segui le istruzioni riportate di seguito.
Configurazione della finestra Connessione Databricks
Per connetterti a Databricks e creare una stringa di connessione Alteryx...
Immetti il tuo ID account o la tua area.
Per Databricks in hosting su AWS, immetti il tuo ID account Databricks. Puoi recuperare l'ID account nella console dell'account Databricks selezionando la freccia giù accanto al tuo nome utente nell'angolo in alto a destra.
Per Databricks in hosting su Azure, immetti la tua area. L'area corrisponde alla posizione del data center di Azure. Può essere fornita dall'amministratore Databricks.
Incolla il token Databricks generato nelle impostazioni utente di Databricks. I token possono scadere ed essere revocati.
Seleziona Connetti. Designer visualizza un elenco di cluster Databricks a cui connetterti. Se la connessione non riesce, prova a immettere nuovamente le credenziali.
Seleziona un cluster Databricks a cui connetterti.
Seleziona un Tipo di sessione. Seleziona uno dei seguenti tipi a seconda del codice che utilizzi per la scrittura:
Scala
Python
R
Facoltativamente, immetti un nome esecuzione descrittivo per il processo in modo da poterlo identificare in seguito. I nomi esecuzione consentono agli utenti di distinguere un processo da un altro sul server. Se lasciato vuoto, viene utilizzato per impostazione predefinita il nome Senza titolo.
Imposta il timeout in minuti. Questo valore indica il numero di minuti di inattività prima che il processo venga interrotto. Se immetti 15 minuti, il processo può rimanere inattivo per 15 minuti prima raggiungere il timeout. Per altre informazioni, consulta la documentazione di Databricks.
Aggiungi le librerie in aggiunta al set di librerie già fornito per la scrittura del tuo codice.
Tipo di file
Descrizione
jar
Archivio Java
egg
Formato di distribuzione importabile a file singolo per progetti correlati a Python.
PyPi
Python Package Index è un repository di software per Python.
Maven
Un repository per file e artefatti.
CRAN
Pacchetto file R
Seleziona l'icona "+" per aggiungere una riga. Seleziona Salva per salvare le impostazioni di configurazione delle librerie in un file. Utilizza l'icona della cartella File per individuare un file di configurazione salvato. Per eliminare una riga, passa il mouse su di essa, quindi seleziona l'icona del cestino.
In Connessione Databricks, seleziona OK.
In Gestisci connessioni In-DB, seleziona OK per creare una stringa di connessione Alteryx.