Apache Spark Sur Microsoft Azure HDInsight

Version:
2022.3
Last modified: September 30, 2021

Outils Alteryx utilisés pour la connexion

Link
Blue icon with database being plugged in.

Outil Connecter En BDD

Link
Blue icon with a stream-like object flowing into a database.

Outil Entrée Du Flux De Données

Link
Apache Spark Code Tool Icon

Outil De Code Spark Apache

Détails supplémentaires

À l'aide de la fenêtre Microsoft Azure HDInsight Connection, créez une nouvelle connexion à Microsoft Azure HDInsight en utilisant l'option Microsoft Azure HDInsight. Utilisez les instructions ci-dessous pour configurer la connexion.

Configurer la fenêtre Microsoft Azure HDInsight Connection

Pour vous connecter à Microsoft Azure HDInsight et créer une chaîne de connexion Alteryx :

  • Ajoutez une nouvelle connexion In-DB, définissant Data Source à Apache Spark sur Microsoft Azure HDInsight. Pour plus d'informations sur la configuration d'une connexion In-DB, consultez l'outil Connect In-DB.
  • Sur l'onglet Lire, le pilote est réglé sur Apache Spark sur Microsoft Azure HDInsight. Cliquez sur la flèche de déroulant de la chaîne de connexion et sélectionnez Nouvelle connexion de base de données.
  • Configurez la fenêtre Microsoft Azure HDInsight Connection.

Configuration Microsoft Azure HDInsight

  • Configurer l'URL Azure
    • Tapez ou collez l'URL Azure pour votre connexion Microsoft Azure HDInsight. Exemple : https://.azurehdinsight.net/
    • Tapez le nom d'utilisateur et le mot de passe associés à la connexion.
    • Contactez votre administrateur pour connaître le nom d'utilisateur et le mot de passe de l'utilisateur de cluster que vous avez configuré lors de la configuration de votre cluster Microsoft Azure HDInsight.
    • Sélectionnez la version Apache Spark utilisée sur votre cluster
  • Cliquez sur Test pour tester la connexion.
  • Définir le mode connexion dans le langage de codage à utiliser dans l'outil Apache Spark Code.
  • Connectez-vous à votre compte de stockage Microsoft Azure.
Stockage Azure
  • Entrez l'URL de stockage pour le stockage (par exemple, Microsoft Azure Blob Storage, Microsoft Azure Data Lake Storage, ou tout autre stockage principal) que vous souhaitez utiliser avec votre connexion. Le protocole HTTPS est requis pour cette URL
  • Entrez l'ID de locataire GUID. Cela se trouve dans les propriétés sous votre Microsoft Azure Active Directory > propriétés > répertoire ID.
  • Saisissez l' ID client. Dans Microsoft Azure, ces informations sont également appelées ID d'application. Cela se trouve dans les propriétés sous vos enregistrements Microsoft Azure Active Directory > App. Plus d'informations peuvent être trouvées sur la documentation Microsoft - Obtenez l'ID d'application et la page clé d'authentification.
  • Entrez le secret du client. Dans Microsoft Azure, ces informations sont générées en tant que chaîne de clé d'authentification à partir de l'ID d'application. Plus d'informations peuvent être trouvées sur les applications Microsoft Azure Integrating avec la page Azure Active Directory.
Options avancées
  • Définir l'intervalle de sondage (ms), le temps entre les vérifications d'Alteryx pour les demandes d'exécution du code Apache Spark. La valeur par défaut est de 1 000 ms, ou 1 seconde.
  • Définir le temps d'attente (ms), le temps qu'Alteryx attend que les demandes d'exécution soient terminées. Les opérations qui durent plus longtemps que le temps d’attente défini entraînent une erreur suite à une période d’inactivité trop longue. La valeur par défaut est de 60 000 ms, ou 1 minute.
  • Les options de configuration Apache Spark personnalisent le contexte Apache Spark créé et permettent aux utilisateurs avancés de remplacer les paramètres Apache Spark par défaut.

Par défaut, l'option Configuration est spark.jars.packages et la valeur est com.databricks:spark-csv 2.10:1.5.0,com.databricks:spark-avro'2.10:2.0.1. Selon la version d'Apache Spark, vous devrez peut-être remplacer la valeur par défaut.

Version Apache Spark Valeur
2.0 - 2.1 com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0
2.2 com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0
  • Cliquez sur (+ icône) pour ajouter une nouvelle ligne à la table des options de configuration.
  • Cliquez sur (icône enregistrer) pour enregistrer les paramètres actuels et avancés en tant que fichier JSON. Le fichier peut ensuite être téléchargé dans les paramètres avancés d’une autre connexion.
  • Cliquez sur (icône ouvrir) pour télécharger un fichier JSON dans la table des options de configuration.

Cliquez sur OK pour créer votre Apache Spark sur la connexion Microsoft Azure HDInsight.

Cette page vous a-t-elle été utile ?

Vous rencontrez des problèmes avec votre produit Alteryx ? Visitez la communauté Alteryx ou contactez le  support. Vous n'arrivez pas à soumettre ce formulaire ? Envoyez-nous un e-mail.