Apache Spark su Microsoft Azure HDInsight

Tipo di connessione	Server REST/HTML
Distribuzioni convalidate su	Microsoft Azure HDInsight
Dettagli server	Le informazioni su Microsoft Azure sono disponibili qui.
Tipo di supporto	In-Database
Convalidato su	Spark 2.1, archivio ADLS Gen1

Strumenti Alteryx utilizzati per Connect

Elaborazione del flusso di lavoro In-Database

Strumento Connetti In-DB	Strumento Flusso di dati in entrata
Strumento Codice di Apache Spark

Ulteriori dettagli

Utilizza la finestra Connessione Microsoft Azure HDInsight per creare una nuova connessione a Microsoft Azure HDInsight tramite l'opzione Microsoft Azure HDInsight. Per configurare la connessione, segui le istruzioni riportate di seguito.

Configurazione della finestra Connessione Microsoft Azure HDInsight

Per connetterti a Microsoft Azure HDInsight e creare una stringa di connessione Alteryx...

Aggiungi una nuova connessione In-DB. Imposta Origine dati su Apache Spark su Microsoft Azure HDInsight. Per ulteriori informazioni sulla configurazione di una connessione In-DB, consulta Strumento Connetti In-DB.
Nella scheda Lettura, il driver è impostato su Apache Spark su Microsoft Azure HDInsight. Fai clic sulla freccia a discesa Stringa di connessione e seleziona Nuova connessione al database.
Configura la finestra Connessione Microsoft Azure HDInsight.

Configurazione di Microsoft Azure HDInsight

Configura l'URL di Azure.
- Immetti o incolla l'URL di Azure per la connessione Microsoft Azure HDInsight. Esempio: https://<clustername>.azurehdinsight.net/
- Immetti il nome utente e la password associati alla connessione.
- Contatta l'amministratore per conoscere il nome utente e la password dell'utente amministratore del cluster configurato durante l'impostazione del cluster Microsoft Azure HDInsight.
- Seleziona la versione Apache Spark utilizzata sul cluster.
Seleziona Test per testare la connessione.
Imposta Modalità connessione sul linguaggio di codifica da utilizzare nello strumento Codice di Apache Spark.
Connettiti all'account di archiviazione di Microsoft Azure.

Memorizzazione Azure

Immetti l'URL di archiviazione per l'archivio (archivio ADLS Gen1) da utilizzare con la connessione. Per questo URL è necessario il protocollo HTTPS.
Immetti il GUID ID tenant. Questo valore si trova nelle proprietà in Microsoft Azure Active Directory > Proprietà > ID directory.
Immetti l'ID client. In Microsoft Azure, questa informazione è nota anche come ID applicazione. Questo valore si trova nelle proprietà in Microsoft Azure Active Directory > Registrazioni app. Ulteriori informazioni sono disponibili nella pagina Documentazione Microsoft > Ottenere l'ID applicazione e la chiave di autenticazione.
Immetti il segreto client. In Microsoft Azure, questa informazione viene generata come stringa della chiave di autenticazione dall'ID applicazione. Ulteriori informazioni sono disponibili nella pagina relativa all'integrazione delle applicazioni Microsoft Azure con Azure Active Directory.

Opzioni avanzate

Imposta l'intervallo di sondaggio (ms), ovvero il tempo tra i controlli di Alteryx per le richieste di esecuzione del codice di Apache Spark. Il valore predefinito è 1.000 ms o 1 secondo.
Imposta il tempo di attesa (ms), ovvero il tempo che Alteryx attende per il completamento delle richieste di esecuzione. Le operazioni che richiedono un tempo maggiore rispetto al valore impostato generano un errore di timeout. Il valore predefinito è 60.000 ms o 1 minuto.
Le opzioni di configurazione di Apache Spark consentono di personalizzare il contesto Apache Spark creato e permettono agli utenti avanzati di sovrascrivere le impostazioni predefinite di Apache Spark.

Nota

Per impostazione predefinita, l'opzione di configurazione è spark.jars.packages e il valore è com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1. A seconda della versione di Apache Spark, potrebbe essere necessario sovrascrivere il valore predefinito.

Versione Apache Spark	Valore
2.0 - 2.1	`com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0`
2.2	`com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0`

Seleziona l'icona + per aggiungere un'altra riga alla tabella delle opzioni di configurazione.
Seleziona l'icona Salva per salvare le impostazioni avanzate correnti come file JSON. Il file potrà quindi essere caricato nelle impostazioni avanzate di un'altra connessione.
Seleziona l'icona Apri per caricare un file JSON nella tabella delle opzioni di configurazione.

Seleziona OK per creare la connessione Apache Spark su Microsoft Azure HDInsight.