Apache Spark sur Microsoft Azure HDInsight
Utilisez ces instructions pour apprendre à vous connecter à Microsoft Azure HDInsight et créez une chaîne de connexion Alteryx.
Outils Alteryx utilisés pour la connexion
- Outil Connecter en BDD, Outil Entrée du flux de donnéeset Outil de code Spark Apache (traitement de workflow dans la base de données)
Détails supplémentaires
À l'aide de la fenêtre de connexion HDInsight de Microsoft Azure , créez une nouvelle connexion à Microsoft Azure HDInsight en utilisant le Microsoft Azure HDInsight option. Utilisez les instructions ci-dessous pour configurer la connexion.
Configurez le Microsoft Azure HDInsight Fenêtre de connexion
Pour vous connecter à Microsoft Azure HDInsight et créez une chaîne de connexion Alteryx:
- Ajoutez une nouvelle connexion in-dB, en définissant la source de données sur Apache Spark sur Microsoft Azure HDInsight. Pour plus d'informations sur la configuration d'une connexion in-dB, voir Outil Connecter en BDD.
- Sur l' onglet lire, le pilote est défini sur Apache Spark sur Microsoft Azure HDInsight. Cliquez sur la flèche déroulante chaîne de connexion et sélectionnez nouvelle connexion de base de données.
- Configurez la fenêtre de connexion HDInsight de Microsoft Azure.
Configuration HDInsight de Microsoft Azure:
- Configurez l' URL Azure.
- Tapez ou collez l' URL Azure pour votre Microsoft Azure HDInsight Connexion. Exemple: https://. </clustername>
- Saisissez le nom d'utilisateur et le mot de passe associés à la connexion.
- Contactez votre administrateur pour connaître le nom d'utilisateur et le mot de passe de l'utilisateur administrateur de cluster que vous avez configuré lors de la configuration de votre Microsoft Azure HDInsight Cluster.
- Sélectionnez la version Apache Spark utilisée sur votre cluster.
- Cliquez sur Tester pour tester la connexion.
- Réglez le mode de connexion sur le langage de codage à utiliser dans l'outil Apache Spark code.
- Connectez-vous à votre compte de stockage Microsoft Azure.
- Entrez l' URL de stockage du stockage (par exemple, stockage BLOB Microsoft Azure, stockage Microsoft Azure Data Lake ou autre stockage principal) que vous souhaitez utiliser avec votre connexion. Le protocole HTTPS est requis pour cette URL.
- Saisissez le GUID de l'ID du locataire . Cela se trouve dans les propriétés sous votre Microsoft Azure Active Directory > propriétés > répertoire ID.
- Saisissez l' ID client. Dans Microsoft Azure, ces informations sont également appelées ID d'application. Cela se trouve dans les propriétés sous vos enregistrements Microsoft Azure Active Directory > App. Vous trouverez plus d'informations sur la page documentation de Microsoft > Get ID de l'application et clé d'authentification .
- Entrez le secret du client. Dans Microsoft Azure, ces informations sont générées en tant que chaîne de clé d'authentification à partir de l'ID d'application. Vous trouverez plus d'informations sur la page Microsoft Azure Integration applications with Azure Active Directory.
- Définissez l' intervalle d'interrogation (MS), la durée entre les contrôles de Alteryx pour les requêtes d'exécution de code Spark. La valeur par défaut est de 1 000 ms, ou 1 seconde.
- Définissez le temps d'attente (MS), l'heure à laquelle Alteryx attend que les demandes d'exécution soient terminées. Les opérations qui durent plus longtemps que le temps d’attente défini entraînent une erreur suite à une période d’inactivité trop longue. La valeur par défaut est de 60 000 ms, ou 1 minute.
- Les options de configuration Apache Spark personnalisent le contexte Apache Spark créé et permettent aux utilisateurs avancés de remplacer les paramètres d'étincelles Apache par défaut.
Configuration par défaut
Par défaut, l' option de configuration est Spark. jar. packages et la valeur est com. databricks: Spark-csv_ 2.10:1.5.0, com. databricks: Spark-avro_ 2.10:2.0.1. Selon la version d'Apache Spark, vous devrez peut-être remplacer la valeur par défaut.
Version Apache Spark | Valeur |
---|---|
2.0 - 2.1 | com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0 |
2.2 | com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0 |
- Cliquez sur (+ icône) pour ajouter une nouvelle ligne à la table des options de configuration.
- Cliquez sur (icône enregistrer) pour enregistrer les paramètres actuels et avancés en tant que fichier JSON. Le fichier peut ensuite être téléchargé dans les paramètres avancés d’une autre connexion.
- Cliquez sur (icône ouvrir) pour télécharger un fichier JSON dans la table des options de configuration.
- Cliquez sur OK pour créer votre étincelle Apache sur la connexion Microsoft Azure HDInsight .