Apache Spark Direct
Strumenti Alteryx utilizzati per la connessione
Elaborazione del flusso di lavoro nel database
Connettersi ad Apache Spark trascinando uno strumento Connect In-DB o lo strumento Apache Spark Code nell'area di disegno. Creare una nuova connessione Livy utilizzando il driver Apache Spark Direct. Utilizzare le istruzioni riportate di seguito per configurare la connessione.
Configurare la finestra Connessione Livy
Per connettersi a Livy Server e creare una stringa di connessione Alteryx:
Aggiungere una nuova connessione In-DB, impostando Origine dati su Apache Spark Direct. Per ulteriori informazioni sull'impostazione di una connessione in-DB, vedere Collegare lo strumento In-DB.
Nella scheda Lettura, Driver verrà bloccato su Apache Spark Direct. Fare clic sulla freccia dell'elenco a discesa Stringa di connessione e selezionare Nuova connessione al database.
Configurare la finestra Connessione Livy.
Configurazione server Livy
Selezionare la preferenza di sicurezza:
- Digitare o incollare l'indirizzo IP host o il nome DNS del nodo Livy all'interno del cluster Apache Spark.
- Digitare la Porta utilizzata da Livy. La porta predefinita è 8998.
- Facoltativamente, specificare il nome utente per impostare la rappresentazione utente, il nome che verrà utilizzato da Apache Spark durante l'esecuzione dei processi.
- Digita o incolla l'URL del gateway Knox.
- Digitare il nome utente e la password associati al gateway specificato.
Facoltativamente, verificare la connessione:
- Selezionare la versione Apache Spark utilizzata nel cluster.
- Selezionare il tipo di connessione Kerberos.
- Fare clic su Test.
Impostare la modalità di connessione sul linguaggio di codifica da utilizzare nello strumento Apache Spark Code.
Connessione HDFS
Selezionare l'opzione Configurazione server che corrisponde al protocollo HDFS utilizzato per comunicare con il cluster.
Digitare l'indirizzo IP host o il nome DNS per il nodo del nome HDFS all'interno del cluster Apache Spark.
Digitare il numero di porta. La porta predefinita verrà popolata automaticamente.
Digitare l'indirizzo IP host o il nome DNS per il nodo del nome HDFS all'interno del cluster Apache Spark.
Digitare il numero di porta. La porta predefinita verrà popolata automaticamente.
Digita o incolla l'URL del gateway Knox.
Facoltativamente, digitare il nome utente per la connessione HDFS.
Facoltativamente, digitare la Password per la connessione HDFS.
Selezionare il protocollo Kerberos da utilizzare.
Opzioni avanzate
Impostare l'intervallo di polling (ms), il tempo tra i controlli da Alteryx per le richieste di esecuzione del codice Apache Spark. Il valore predefinito è 1.000 ms o 1 secondo.
Impostare il tempo di attesa (ms), il tempo che Alteryx attende il completamento delle richieste di esecuzione. Le operazioni che richiedono più tempo del tempo di attesa impostato generano un errore di timeout. Il valore predefinito è 60.000 ms o 1 minuto.
Le opzioni di configurazione di Apache Spark consentono di personalizzare il contesto Apache Spark creato e consentono agli utenti avanzati di ignorare le impostazioni predefinite di Apache Spark.
Per impostazione predefinita, l'opzione di configurazione è spark.jars.packages e il valore è com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-2.10:2.0.1. A seconda della versione di Apache Spark, potrebbe essere necessario sostituire il valore predefinito.
Versione Apache Spark | Valore |
---|---|
2.0 - 2.1 | com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0 |
2.2 | com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0 |
- Fare clic su (icona a s) per aggiungere un'altra riga alla tabella delle opzioni di configurazione.
- Fare clic su (salva icona) per salvare le impostazioni avanzate correnti come file JSON. Il file può quindi essere caricato nelle impostazioni avanzate di un'altra connessione.
- Fare clic su (icona di apertura) per caricare un file JSON nella tabella delle opzioni di configurazione.
Selezionare OK per creare la connessione Apache Spark Direct.