Apache Spark su Microsoft Azure HDInsight
Tipo di connessione | Server REST/HTML |
Distribuzioni convalidate su | Microsoft Azure HDInsight |
Dettagli server | Le informazioni su Microsoft Azure sono disponibili qui. |
Tipo di supporto | In-Database |
Convalidato su | Spark 2.1, archivio ADLS Gen1 |
Strumenti Alteryx utilizzati per Connect
Elaborazione del flusso di lavoro In-Database
Ulteriori dettagli
Utilizza la finestra Connessione Microsoft Azure HDInsight per creare una nuova connessione a Microsoft Azure HDInsight tramite l'opzione Microsoft Azure HDInsight. Per configurare la connessione, segui le istruzioni riportate di seguito.
Configurazione della finestra Connessione Microsoft Azure HDInsight
Per connetterti a Microsoft Azure HDInsight e creare una stringa di connessione Alteryx...
Aggiungi una nuova connessione In-DB. Imposta Origine dati su Apache Spark su Microsoft Azure HDInsight. Per ulteriori informazioni sulla configurazione di una connessione In-DB, consulta Strumento Connetti In-DB.
Nella scheda Lettura, il driver è impostato su Apache Spark su Microsoft Azure HDInsight. Fai clic sulla freccia a discesa Stringa di connessione e seleziona Nuova connessione al database.
Configura la finestra Connessione Microsoft Azure HDInsight.
Configurazione di Microsoft Azure HDInsight
Configura l'URL di Azure.
Immetti o incolla l'URL di Azure per la connessione Microsoft Azure HDInsight. Esempio: https://<clustername>.azurehdinsight.net/
Immetti il nome utente e la password associati alla connessione.
Contatta l'amministratore per conoscere il nome utente e la password dell'utente amministratore del cluster configurato durante l'impostazione del cluster Microsoft Azure HDInsight.
Seleziona la versione Apache Spark utilizzata sul cluster.
Seleziona Test per testare la connessione.
Imposta Modalità connessione sul linguaggio di codifica da utilizzare nello strumento Codice di Apache Spark.
Connettiti all'account di archiviazione di Microsoft Azure.
Memorizzazione Azure
Immetti l'URL di archiviazione per l'archivio (archivio ADLS Gen1) da utilizzare con la connessione. Per questo URL è necessario il protocollo HTTPS.
Immetti il GUID ID tenant. Questo valore si trova nelle proprietà in Microsoft Azure Active Directory > Proprietà > ID directory.
Immetti l'ID client. In Microsoft Azure, questa informazione è nota anche come ID applicazione. Questo valore si trova nelle proprietà in Microsoft Azure Active Directory > Registrazioni app. Ulteriori informazioni sono disponibili nella pagina Documentazione Microsoft > Ottenere l'ID applicazione e la chiave di autenticazione.
Immetti il segreto client. In Microsoft Azure, questa informazione viene generata come stringa della chiave di autenticazione dall'ID applicazione. Ulteriori informazioni sono disponibili nella pagina relativa all'integrazione delle applicazioni Microsoft Azure con Azure Active Directory.
Opzioni avanzate
Imposta l'intervallo di sondaggio (ms), ovvero il tempo tra i controlli di Alteryx per le richieste di esecuzione del codice di Apache Spark. Il valore predefinito è 1.000 ms o 1 secondo.
Imposta il tempo di attesa (ms), ovvero il tempo che Alteryx attende per il completamento delle richieste di esecuzione. Le operazioni che richiedono un tempo maggiore rispetto al valore impostato generano un errore di timeout. Il valore predefinito è 60.000 ms o 1 minuto.
Le opzioni di configurazione di Apache Spark consentono di personalizzare il contesto Apache Spark creato e permettono agli utenti avanzati di sovrascrivere le impostazioni predefinite di Apache Spark.
Nota
Per impostazione predefinita, l'opzione di configurazione è spark.jars.packages e il valore è com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1
. A seconda della versione di Apache Spark, potrebbe essere necessario sovrascrivere il valore predefinito.
Versione Apache Spark | Valore |
---|---|
2.0 - 2.1 |
|
2.2 |
|
Seleziona l'icona + per aggiungere un'altra riga alla tabella delle opzioni di configurazione.
Seleziona l'icona Salva per salvare le impostazioni avanzate correnti come file JSON. Il file potrà quindi essere caricato nelle impostazioni avanzate di un'altra connessione.
Seleziona l'icona Apri per caricare un file JSON nella tabella delle opzioni di configurazione.
Seleziona OK per creare la connessione Apache Spark su Microsoft Azure HDInsight.