Skip to main content

Apache Spark sur Microsoft Azure HDInsight

Type de connexion

Serveur REST/HTML

Distributions validées le

Microsoft Azure HDInsight

Détails du serveur

Vous trouverez des informations sur Microsoft Azure ici.

Type de prise en charge

En base de données

Validé le

Spark 2.1, stockage ADLS Gen1

Outils Alteryx utilisés pour la connexion

Traitement de workflow en base de données

Détails supplémentaires

Utilisez la fenêtre de connexion Microsoft Azure HDInsight pour créer une nouvelle connexion à Microsoft Azure HDInsight via l'option Microsoft Azure HDInsight. Suivez les instructions ci-dessous pour configurer la connexion.

Configurez la fenêtre de connexion Microsoft Azure HDInsight

Pour vous connecter à Microsoft Azure HDInsight et créer une chaîne de connexion Alteryx…

  • Ajoutez une nouvelle connexion en BDD. Définissez Source de données sur Apache Spark sur Microsoft Azure HDInsight. Pour plus d'informations sur le paramétrage d'une connexion en BDD, voir l'outil Connecter en BDD.

  • Dans l'onglet Lire, le Pilote est défini sur Apache Spark sur Microsoft Azure HDInsight. Sélectionnez la flèche déroulante de chaîne de connexion et sélectionnez Nouvelle connexion à la base de données.

  • Configurez la fenêtre Connexion Microsoft Azure HDInsight.

Configuration de Microsoft Azure HDInsight

  • Configurez l'URL Azure.

    • Entrez ou collez l'URL Azure de votre connexion Microsoft Azure HDInsight. Exemple : https://<clustername>.azurehdinsight.net/

    • Saisissez le Nom d'utilisateur et le Mot de passe associés à la connexion.

    • Contactez votre administrateur pour connaître le nom d'utilisateur et le mot de passe de l'administrateur du cluster que vous avez configuré lors de l'installation de votre cluster Microsoft Azure HDInsight.

    • Sélectionnez la Version de Apache Spark utilisée sur votre cluster.

  • Sélectionnez Tester pour tester la connexion.

  • Paramétrez le mode de connexion selon la langue de codage à utiliser dans l'outil Code Apache Spark.

  • Connectez-vous à votre compte de stockage Microsoft Azure.

Stockage Azure
  • Entrez l'URL de stockage du stockage (stockage ADLS Gen1) à utiliser avec votre connexion. Le protocole HTTPS est requis pour cette URL.

  • Entrez l'ID de locataire GUID. Ceci se trouve dans les propriétés sous votre ID de répertoire > Propriétés > Microsoft Azure Active.

  • Saisissez l'ID Client. Dans Microsoft Azure, ces informations sont également appelées ID d'application. Cela se trouve dans les propriétés sous vos enregistrements d'application > Microsoft Azure Active Directory. Vous trouverez plus d'informations sur la page Documentation Microsoft > Obtenir l'ID d'application et la clé d'authentification.

  • Saisir le secret du client. Dans Microsoft Azure, ces informations sont générées sous forme de chaîne de clé d'authentification à partir de l'ID de l'application. Vous trouverez plus d'informations sur la page Intégration d'applications Microsoft Azure avec Azure Active Directory.

Options avancées
  • Définissez l'Intervalle de sondage (ms), la durée entre deux vérifications de Alteryx pour les demandes d'exécution du Code Apache Spark. La valeur par défaut est de 1 000 ms, ou 1 seconde.

  • Définissez le Temps d'attente (ms), la durée pendant laquelle Alteryx doit attendre pour que les demandes d'exécution soient effectuées. Les opérations qui durent plus longtemps que le temps d’attente défini entraînent une erreur suite à une période d’inactivité trop longue. La valeur par défaut est de 60 000 ms, ou 1 minute.

  • Les Options de configuration Apache Spark permettent de personnaliser le contexte Apache Spark créé, et aux utilisateurs expérimentés d'ignorer les paramètres par défaut de Apache Spark.

Note

Par défaut, l’option de configuration est spark.jars.packages et la Valeur est com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1. En fonction de votre version Apache Spark, il est possible que vous deviez ignorer la valeur par défaut.

Version d'Apache Spark

Valeur

2.0 - 2.1

com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0

2.2

com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0

  • Cliquez sur l'icône + pour ajouter une nouvelle ligne à la table des options de configuration.

  • Sélectionnez l'icône Enregistrer pour enregistrer les paramètres actuels et avancés en tant que fichier JSON. Le fichier peut ensuite être téléchargé dans les paramètres avancés d’une autre connexion.

  • Sélectionnez l'icône Ouvrir pour télécharger un fichier JSON dans la table des options de configuration.

Sélectionnez OK pour créer votre connexion Apache Spark sur Microsoft Azure HDInsight.