Apache Spark Direct

Tipo di connessione	Server REST/HTML
Distribuzioni convalidate su	Hortonworks 2.6, Cloudera 5.7
Dettagli server	Le informazioni per il download di Apache Livy sono disponibili qui .
Tipo di supporto	In-Database
Convalidato su	Apache Livy 0.3, Apache Spark 1.6, 2.0, 2.1 e 2.2

Strumenti Alteryx utilizzati per Connect

Elaborazione del flusso di lavoro In-Database

Strumento Connetti In-DB	Strumento Flusso di dati in entrata
Strumento Codice di Apache Spark

Connettiti ad Apache Spark trascinando uno strumento Connetti In-DB o Codice di Apache Spark nell'area di disegno. Crea una nuova connessione Livy utilizzando il driver Apache Spark Direct. Per configurare la connessione, segui le istruzioni riportate di seguito.

Configurazione della finestra Connessione Livy

Per connetterti al server Livy e creare una stringa di connessione Alteryx:

Aggiungi una nuova connessione In-DB, impostando Origine dati su Apache Spark Direct . Per ulteriori informazioni sulla configurazione di una connessione In-DB, consulta Strumento Connetti In-DB .

Nella scheda Lettura , Driver sarà bloccato su Apache Spark Direct . Fai clic sulla freccia a discesa Stringa di connessione e seleziona Nuova connessione al database .

Configura la finestra Connessione Livy .

Configurazione server Livy

Seleziona la tua preferenza per la sicurezza:

none

Immetti o incolla l'indirizzo IP dell' host o il nome DNS del nodo Livy all'interno del cluster Apache Spark.
Immetti la porta utilizzata da Livy. La porta predefinita è 8998.
Facoltativamente, specifica il nome utente per impostare la rappresentazione utente, ovvero il nome che Apache Spark utilizzerà per l'esecuzione dei processi.

Knox

Immetti o incolla l' URL del gateway Knox.
Immetti il nome utente e la password associati al gateway specificato.

Facoltativamente, verifica la connessione:

Seleziona la versione Apache Spark utilizzata sul cluster.
Seleziona il tipo di connessione Kerberos .
Seleziona Test .

Imposta Modalità connessione sul linguaggio di codifica da utilizzare nello strumento Codice di Apache Spark.

Connessione HDFS

Seleziona l'opzione Configurazione del server che corrisponde al protocollo HDFS utilizzato per comunicare con il cluster.

HTTPFS

Immetti o incolla l'indirizzo IP dell' host o il nome DNS del nodo del nome HDFS all'interno del cluster Apache Spark.
Immetti il numero della porta . La porta predefinita verrà popolata automaticamente.

WebHDFS

Immetti o incolla l'indirizzo IP dell' host o il nome DNS del nodo del nome HDFS all'interno del cluster Apache Spark.
Immetti il numero della porta . La porta predefinita verrà popolata automaticamente.

Knox Gateway

Immetti o incolla l' URL del gateway Knox.

Facoltativamente, immetti il nome utente per la connessione HDFS.

Facoltativamente, immetti la password per la connessione HDFS.

Seleziona il protocollo Kerberos da utilizzare.

Opzioni avanzate

Imposta l'intervallo di sondaggio (ms), ovvero il tempo tra i controlli di Alteryx per le richieste di esecuzione del codice di Apache Spark. Il valore predefinito è 1.000 ms o 1 secondo.

Imposta il tempo di attesa (ms), ovvero il tempo che Alteryx attende per il completamento delle richieste di esecuzione. Le operazioni che richiedono un tempo maggiore rispetto al valore impostato generano un errore di timeout. Il valore predefinito è 60.000 ms o 1 minuto.

Le opzioni di configurazione di Apache Spark consentono di personalizzare il contesto Apache Spark creato e permettono agli utenti avanzati di sovrascrivere le impostazioni predefinite di Apache Spark.

Nota

Per impostazione predefinita, l'opzione di configurazione è spark.jars.packages e il valore è com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1. A seconda della versione di Apache Spark, potrebbe essere necessario sovrascrivere il valore predefinito.

Versione Apache Spark	Valore
2.0 - 2.1	com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0
2.2	com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0

Seleziona (icona +) per aggiungere un'altra riga alla tabella delle opzioni di configurazione.
Seleziona (icona Salva) per salvare le impostazioni avanzate correnti come file JSON. Il file potrà quindi essere caricato nelle impostazioni avanzate di un'altra connessione.
Seleziona (icona Apri) per caricare un file JSON nella tabella delle opzioni di configurazione.

Seleziona OK per creare la connessione Apache Spark Direct.

Limitazioni

Al momento, Alteryx supporta Spark nativo in Cloudera Data Platform (CDP) ma non Cloudera Distributed Hadoop (CDH).

I server Livy con abilitazione TLS/SSL non sono supportati.