Skip to main content

Apache Spark su Databricks

Tipo di connessione

Server REST/HTML

Distribuzioni convalidate su

Databricks

Dettagli server

Le informazioni su Databricks sono disponibili qui.

Tipo di supporto

In-Database

Convalidato su

Client ODBC versione 2.6.23.1039

Strumenti Alteryx utilizzati per Connect

Elaborazione del flusso di lavoro In-Database

Connettiti ad Apache Spark trascinando uno strumento Connetti In-DB o Codice di Apache Spark nell'area di disegno. Crea una nuova connessione Livy utilizzando il driver Apache Spark Direct. Per configurare la connessione, segui le istruzioni riportate di seguito.

Configurazione della finestra Connessione Databricks

Per connetterti a Databricks e creare una stringa di connessione Alteryx...

  1. Immetti il tuo ID account o la tua area.

    • Per Databricks in hosting su AWS, immetti il tuo ID account Databricks. Puoi recuperare l'ID account nella console dell'account Databricks selezionando la freccia giù accanto al tuo nome utente nell'angolo in alto a destra.

    • Per Databricks in hosting su Azure, immetti la tua area. L'area corrisponde alla posizione del data center di Azure. Può essere fornita dall'amministratore Databricks.

  2. Incolla il token Databricks generato nelle impostazioni utente di Databricks. I token possono scadere ed essere revocati.

  3. Seleziona Connetti. Designer visualizza un elenco di cluster Databricks a cui connetterti. Se la connessione non riesce, prova a immettere nuovamente le credenziali.

  4. Seleziona un cluster Databricks a cui connetterti.

  5. Seleziona un Tipo di sessione. Seleziona uno dei seguenti tipi a seconda del codice che utilizzi per la scrittura:

    • Scala

    • Python

    • R

  6. Facoltativamente, immetti un nome esecuzione descrittivo per il processo in modo da poterlo identificare in seguito. I nomi esecuzione consentono agli utenti di distinguere un processo da un altro sul server. Se lasciato vuoto, viene utilizzato per impostazione predefinita il nome Senza titolo.

  7. Imposta il timeout in minuti. Questo valore indica il numero di minuti di inattività prima che il processo venga interrotto. Se immetti 15 minuti, il processo può rimanere inattivo per 15 minuti prima raggiungere il timeout. Per altre informazioni, consulta la documentazione di Databricks.

  8. Aggiungi le librerie in aggiunta al set di librerie già fornito per la scrittura del tuo codice.

    Tipo di file

    Descrizione

    jar

    Archivio Java

    egg

    Formato di distribuzione importabile a file singolo per progetti correlati a Python.

    PyPi

    Python Package Index è un repository di software per Python.

    Maven

    Un repository per file e artefatti.

    CRAN

    Pacchetto file R

    Seleziona l'icona "+" per aggiungere una riga. Seleziona Salva per salvare le impostazioni di configurazione delle librerie in un file. Utilizza l'icona della cartella File per individuare un file di configurazione salvato. Per eliminare una riga, passa il mouse su di essa, quindi seleziona l'icona del cestino.

  9. In Connessione Databricks, seleziona OK.

  10. In Gestisci connessioni In-DB, seleziona OK per creare una stringa di connessione Alteryx.