Apache Spark Su Microsoft Azure HDInsight
Strumenti Alteryx utilizzati per la connessione
Dettagli aggiuntivi
Usando la finestra Connessione HDInsight di Microsoft Azure, creare una nuova connessione a Microsoft Azure HDInsight usando l'opzione Microsoft Azure HDInsight.Using the Microsoft Azure HDInsight Connection window, create a new connection to Microsoft Azure HDInsight using the Microsoft Azure HDInsight option. Utilizzare le istruzioni riportate di seguito per configurare la connessione.
Configurare la finestra Connessione Microsoft Azure HDInsightConfigure the Microsoft Azure HDInsight Connection window
Per connettersi a Microsoft Azure HDInsight e creare una stringa di connessione Alteryx:To connect to Microsoft Azure HDInsight and create an Alteryx connection string:
- Aggiungere una nuova connessione In-DB, impostando Origine dati su Apache Spark in Microsoft Azure HDInsight. Per ulteriori informazioni sull'impostazione di una connessione in-DB, vedere Strumento Connetti in-DB.
- Nella scheda Lettura il driver è impostato su Apache Spark in Microsoft Azure HDInsight. Fare clic sulla freccia dell'elenco a discesa Stringa di connessione e selezionare Nuova connessione al database.
- Configurare la finestra Connessione Microsoft Azure HDInsight.Configure the Microsoft Azure HDInsight Connection window.
Configurazione di Microsoft Azure HDInsight
- Configurare l'URL di AzureConfigure the Azure URL
- Digitare o incollare l'URL di Azure per la connessione hdInsight di Microsoft Azure.Type or paste the Azure URL for your Microsoft Azure HDInsight connection. Esempio: https://
.azurehdinsight.net/ - Digitare il nome utente e la password associati alla connessione.
- Contattare l'amministratore per individuare il nome utente e la password dell'utente amministratore del cluster configurato durante la configurazione del cluster Microsoft Azure HDInsight.
- Selezionare la versione Apache Spark utilizzata nel cluster
- Digitare o incollare l'URL di Azure per la connessione hdInsight di Microsoft Azure.Type or paste the Azure URL for your Microsoft Azure HDInsight connection. Esempio: https://
- Fare clic su Test per testare la connessione.
- Impostare la modalità di connessione sul linguaggio di codifica da utilizzare nello strumento Apache Spark Code.
- Connettersi all'account di archiviazione di Microsoft Azure.Connect to your Microsoft Azure storage account.
Archiviazione di AzureAzure storage
- Immettere l'URL di archiviazione per l'archiviazione, ad esempio Archiviazione BLOB di Microsoft Azure, Archiviazione di Microsoft Azure Data Lake o un'altra risorsa di archiviazione primaria, che si vuole usare con la connessione. Il protocollo HTTPS è necessario per questo URL
- Immettere il GUID ID tenant. Si trova nelle proprietà sotto l'ID della directory delle proprietà > di Microsoft Azure Active Directory .
- Immettere l'ID client. In Microsoft Azure queste informazioni sono note anche come ID applicazione. Questo si trova nelle proprietà sotto le registrazioni dell'app di Microsoft Azure Active Directory. Ulteriori informazioni sono disponibili nella pagina Documentazione Microsoft > Get application ID and authentication key.
- Immettere il segreto client. In Microsoft Azure queste informazioni vengono generate come stringa di chiave di autenticazione dall'ID applicazione. Ulteriori informazioni sono disponibili nella pagina Integrazione di microsoft Azure di applicazioni con Azure Active Directory.More information can be found on the Microsoft Azure Integrating applications with Azure Active Directory page.
Opzioni avanzate
- Impostare intervallo di polling (ms), il tempo che interseava da Alteryx per le richieste di esecuzione del codice Apache Spark . Il valore predefinito è 1.000 ms o 1 secondo.
- Impostare tempo di attesa (ms), il tempo di attesa di Alteryx per il completamento delle richieste di esecuzione. Le operazioni che richiedono più tempo del tempo di attesa impostato generano un errore di timeout. Il valore predefinito è 60.000 ms o 1 minuto.
- Le opzioni di configurazione di Apache Spark consentono di personalizzare il contesto Apache Spark creato e consentono agli utenti avanzati di ignorare le impostazioni predefinite di Apache Spark.
Per impostazione predefinita, l'opzione di configurazione è spark.jars.packages e il valore è com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-2.10:2.0.1
. A seconda della versione di Apache Spark, potrebbe essere necessario sostituire il valore predefinito.
Versione Apache Spark | Valore |
---|---|
2.0 - 2.1 | com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0 |
2.2 | com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0 |
- Fare clic su (icona a s) per aggiungere un'altra riga alla tabella delle opzioni di configurazione.
- Fare clic su (salva icona) per salvare le impostazioni avanzate correnti come file JSON. Il file può quindi essere caricato nelle impostazioni avanzate di un'altra connessione.
- Fare clic su (icona di apertura) per caricare un file JSON nella tabella delle opzioni di configurazione.
Fare clic su OK per creare Apache Spark nella connessione Microsoft Azure HDInsight.Click OK to create your Apache Spark on Microsoft Azure HDInsight connection.