Apache Spark Direct

Version:
2022.3
Last modified: March 26, 2020

Outils Alteryx utilisés pour la connexion

Traitement de workflow dans la base de données

Link
Blue icon with database being plugged in.

Outil Connecter En BDD

Link
Blue icon with a stream-like object flowing into a database.

Outil Entrée Du Flux De Données

Link
Apache Spark Code Tool Icon

Outil De Code Spark Apache

Connectez-vous à Apache Spark en faisant glisser un outil Connect in-dB ou l'outil Apache Spark code sur le canevas. Créez une nouvelle connexion livy à l'aide du pilote Apache Spark direct. Utilisez les instructions ci-dessous pour configurer la connexion.

Configurer la fenêtre de connexion livy

Pour vous connecter au serveur livy et créer une chaîne de connexion Alteryx:

Ajoutez une nouvelle connexion In-DB, définissant Source de données sur Apache Spark Direct. Pour plus d'informations sur la configuration d'une connexion In-DB, voir Connect In-DB Tool.

Sur l' onglet lire, le pilote sera verrouillé à Apache Spark direct. Cliquez sur la flèche de déroulant de la chaîne de connexion et sélectionnez Nouvelle connexion de base de données.

Configurer la fenêtre Livy Connection.

Configuration du serveur Livy

Sélectionnez vos préférences en matière de sécurité :

Aucun(e)
  • Tapez ou collez l'adresse IP hôte ou le nom DNS du nœud Livy dans votre cluster Apache Spark.
  • Tapez le port utilisé par livy. Le port par défaut est 8998.
  • Fournir en option le nom d'utilisateur pour définir l'usurpation d'identité de l'utilisateur, le nom qu'Apache Spark utilisera lors de l'exécution des tâches.
Knox
  • Saisissez ou collez l' URL de votre passerelle Knox.
  • Tapez le nom d'utilisateur et le mot de passe associés à la passerelle spécifiée.

Testez en option la connexion:

  • Sélectionnez la version Apache Spark utilisée sur votre cluster.
  • Sélectionnez le type de connexion Kerberos.
  • Cliquez sur test.

Définir le mode connexion dans le langage de codage à utiliser dans l'outil Apache Spark Code.

Connexion à un HDFS

Sélectionnez l'option Configuration serveur qui correspond au protocole HDFS utilisé pour communiquer avec le cluster.

HTTPFS

Tapez l' adresse IP de l'hôte ou le nom DNS du nœud de nom HDFS dans votre cluster d'étincelles Apache.
Saisissez le numéro de port . Le port par défaut sera renseigné automatiquement.

WebHDFS

Tapez l' adresse IP de l'hôte ou le nom DNS du nœud de nom HDFS dans votre cluster d'étincelles Apache.
Saisissez le numéro de port . Le port par défaut sera renseigné automatiquement.

Passerelle Knox

Saisissez ou collez l' URL de votre passerelle Knox.

Tapez éventuellement le nom d'utilisateur de la connexion HDFS.

Tapez éventuellement le mot de passe pour la connexion HDFS.

Sélectionnez le protocole Kerberos à utiliser.

Options avancées

Définissez l' intervalle d'interrogation (MS), la durée entre les contrôles de Alteryx pour les requêtes d'exécution de code Spark. La valeur par défaut est de 1 000 ms, ou 1 seconde.

Définissez le Temps d’attente (ms), la durée pendant laquelle Alteryx doit attendre pour que les demandes d’exécution soient effectuées. Les opérations qui durent plus longtemps que le temps d’attente défini entraînent une erreur suite à une période d’inactivité trop longue. La valeur par défaut est de 60 000 ms, ou 1 minute.

Les options de configuration Apache Spark personnalisent le contexte Apache Spark créé et permettent aux utilisateurs avancés de remplacer les paramètres d'étincelles Apache par défaut.

Par défaut, l’option de configuration est spark.jars.packages et la Valeur est com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1. Selon la version d'Apache Spark, vous devrez peut-être remplacer la valeur par défaut.

Version Apache Spark Valeur
2.0 - 2.1 com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0
2.2 com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0
  • Cliquez sur (+ icône) pour ajouter une nouvelle ligne à la table des options de configuration.
  • Cliquez sur (icône enregistrer) pour enregistrer les paramètres actuels et avancés en tant que fichier JSON. Le fichier peut ensuite être téléchargé dans les paramètres avancés d’une autre connexion.
  • Cliquez sur (icône ouvrir) pour télécharger un fichier JSON dans la table des options de configuration.

Sélectionnez OK pour créer votre connexion Apache Spark direct.

Cette page vous a-t-elle été utile ?

Vous rencontrez des problèmes avec votre produit Alteryx ? Visitez la communauté Alteryx ou contactez le  support. Vous n'arrivez pas à soumettre ce formulaire ? Envoyez-nous un e-mail.