Apache Spark sur Microsoft Azure HDInsight

Type de connexion	Serveur REST/HTML
Distributions validées le	Microsoft Azure HDInsight
Détails du serveur	Vous trouverez des informations sur Microsoft Azure ici.
Type de prise en charge	En base de données
Validé le	Spark 2.1, stockage ADLS Gen1

Outils Alteryx utilisés pour la connexion

Traitement de workflow en base de données

Outil Connecter en BDD	Outil Entrée du flux de données
Outil Code Apache Spark

Détails supplémentaires

Utilisez la fenêtre de connexion Microsoft Azure HDInsight pour créer une nouvelle connexion à Microsoft Azure HDInsight via l'option Microsoft Azure HDInsight. Suivez les instructions ci-dessous pour configurer la connexion.

Configurez la fenêtre de connexion Microsoft Azure HDInsight

Pour vous connecter à Microsoft Azure HDInsight et créer une chaîne de connexion Alteryx…

Ajoutez une nouvelle connexion en BDD. Définissez Source de données sur Apache Spark sur Microsoft Azure HDInsight. Pour plus d'informations sur le paramétrage d'une connexion en BDD, voir l'outil Connecter en BDD.
Dans l'onglet Lire, le Pilote est défini sur Apache Spark sur Microsoft Azure HDInsight. Sélectionnez la flèche déroulante de chaîne de connexion et sélectionnez Nouvelle connexion à la base de données.
Configurez la fenêtre Connexion Microsoft Azure HDInsight.

Configuration de Microsoft Azure HDInsight

Configurez l'URL Azure.
- Entrez ou collez l'URL Azure de votre connexion Microsoft Azure HDInsight. Exemple : https://<clustername>.azurehdinsight.net/
- Saisissez le Nom d'utilisateur et le Mot de passe associés à la connexion.
- Contactez votre administrateur pour connaître le nom d'utilisateur et le mot de passe de l'administrateur du cluster que vous avez configuré lors de l'installation de votre cluster Microsoft Azure HDInsight.
- Sélectionnez la Version de Apache Spark utilisée sur votre cluster.
Sélectionnez Tester pour tester la connexion.
Paramétrez le mode de connexion selon la langue de codage à utiliser dans l'outil Code Apache Spark.
Connectez-vous à votre compte de stockage Microsoft Azure.

Stockage Azure

Entrez l'URL de stockage du stockage (stockage ADLS Gen1) à utiliser avec votre connexion. Le protocole HTTPS est requis pour cette URL.
Entrez l'ID de locataire GUID. Ceci se trouve dans les propriétés sous votre ID de répertoire > Propriétés > Microsoft Azure Active.
Saisissez l'ID Client. Dans Microsoft Azure, ces informations sont également appelées ID d'application. Cela se trouve dans les propriétés sous vos enregistrements d'application > Microsoft Azure Active Directory. Vous trouverez plus d'informations sur la page Documentation Microsoft > Obtenir l'ID d'application et la clé d'authentification.
Saisir le secret du client. Dans Microsoft Azure, ces informations sont générées sous forme de chaîne de clé d'authentification à partir de l'ID de l'application. Vous trouverez plus d'informations sur la page Intégration d'applications Microsoft Azure avec Azure Active Directory.

Options avancées

Définissez l'Intervalle de sondage (ms), la durée entre deux vérifications de Alteryx pour les demandes d'exécution du Code Apache Spark. La valeur par défaut est de 1 000 ms, ou 1 seconde.
Définissez le Temps d'attente (ms), la durée pendant laquelle Alteryx doit attendre pour que les demandes d'exécution soient effectuées. Les opérations qui durent plus longtemps que le temps d’attente défini entraînent une erreur suite à une période d’inactivité trop longue. La valeur par défaut est de 60 000 ms, ou 1 minute.
Les Options de configuration Apache Spark permettent de personnaliser le contexte Apache Spark créé, et aux utilisateurs expérimentés d'ignorer les paramètres par défaut de Apache Spark.

Note

Par défaut, l’option de configuration est spark.jars.packages et la Valeur est com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1. En fonction de votre version Apache Spark, il est possible que vous deviez ignorer la valeur par défaut.

Version d'Apache Spark	Valeur
2.0 - 2.1	`com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0`
2.2	`com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0`

Cliquez sur l'icône + pour ajouter une nouvelle ligne à la table des options de configuration.
Sélectionnez l'icône Enregistrer pour enregistrer les paramètres actuels et avancés en tant que fichier JSON. Le fichier peut ensuite être téléchargé dans les paramètres avancés d’une autre connexion.
Sélectionnez l'icône Ouvrir pour télécharger un fichier JSON dans la table des options de configuration.

Sélectionnez OK pour créer votre connexion Apache Spark sur Microsoft Azure HDInsight.