Apache Spark Direct
Outils Alteryx utilisés pour la connexion
- Outil Connecter en BDD, Outil Entrée du flux de donnéeset Outil de code Spark Apache (traitement de workflow dans la base de données)
Détails supplémentaires
Connectez-vous à Apache Spark en faisant glisser un outil Connect in-dB ou l'outil Apache Spark code sur le canevas. Créez une nouvelle connexion livy à l'aide du pilote Apache Spark direct. Utilisez les instructions ci-dessous pour configurer la connexion.
Configurer la fenêtre de connexion livy
Pour vous connecter au serveur livy et créer une chaîne de connexion Alteryx:
Ajoutez une nouvelle connexion in-dB, en définissant la source de données sur Apache Spark direct. Pour plus d'informations sur la configuration d'une connexion in-dB, voir Outil Connecter en BDD.
Sur l' onglet lire, le pilote sera verrouillé à Apache Spark direct. Cliquez sur la flèche déroulante chaîne de connexion et sélectionnez nouvelle connexion de base de données.
Configurez la fenêtre de connexion livy .
Configuration du serveur livy: sélectionnez votre préférence de sécurité:
Tapez ou collez l' adresse IP de l'hôte ou le nom DNS du nœud livy dans votre cluster d'étincelles Apache.
Tapez le port utilisé par livy. Le port par défaut est 8998.
Vous pouvez éventuellement fournir le nom d'utilisateur pour définir l'emprunt d'identité de l'utilisateur, le nom qu'Apache Spark utilisera lors de l'exécution des travaux.
Saisissez ou collez l' URL de votre passerelle Knox.
Tapez le nom d'utilisateur et le mot de passe associés à la passerelle spécifiée.
À titre facultatif, testez la connexion :
- Sélectionnez la version Apache Spark utilisée sur votre cluster.
- Sélectionnez le type de connexion Kerberos.
- Cliquez sur test.
Réglez le mode de connexion sur le langage de codage à utiliser dans l'outil Apache Spark code.
Sélectionnez l' option de configuration du serveur qui correspond au protocole HDFS utilisé pour communiquer avec le cluster.
Tapez l' adresse IP de l'hôte ou le nom DNS du nœud de nom HDFS dans votre cluster d'étincelles Apache.
Saisissez le numéro de port . Le port par défaut sera renseigné automatiquement.
Tapez l' adresse IP de l'hôte ou le nom DNS du nœud de nom HDFS dans votre cluster d'étincelles Apache.
Saisissez le numéro de port . Le port par défaut sera renseigné automatiquement.
Saisissez ou collez l' URL de votre passerelle Knox.
Tapez éventuellement le nom d'utilisateur de la connexion HDFS.
Tapez éventuellement le mot de passe pour la connexion HDFS.
Sélectionnez le protocole Kerberos à utiliser.
Définissez l' intervalle d'interrogation (MS), la durée entre les contrôles de Alteryx pour les requêtes d'exécution de code Spark. La valeur par défaut est de 1 000 ms, ou 1 seconde.
Définissez le temps d'attente (MS), l'heure à laquelle Alteryx attend que les demandes d'exécution soient terminées. Les opérations qui durent plus longtemps que le temps d’attente défini entraînent une erreur suite à une période d’inactivité trop longue. La valeur par défaut est de 60 000 ms, ou 1 minute.
Les options de configuration Apache Spark personnalisent le contexte Apache Spark créé et permettent aux utilisateurs avancés de remplacer les paramètres d'étincelles Apache par défaut.
Configuration par défaut
Par défaut, l' option de configuration est Spark. jar. packages et la valeur est com. databricks: Spark-csv_ 2.10:1.5.0, com. databricks: Spark-avro_ 2.10:2.0.1. Selon la version d'Apache Spark, vous devrez peut-être remplacer la valeur par défaut.
Version Apache Spark | Valeur |
---|---|
2.0 - 2.1 | com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0 |
2.2 | com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0 |
Cliquez sur (+ icône) pour ajouter une nouvelle ligne à la table des options de configuration.
Cliquez sur (icône enregistrer) pour enregistrer les paramètres actuels et avancés en tant que fichier JSON. Le fichier peut ensuite être téléchargé dans les paramètres avancés d’une autre connexion.
Cliquez sur (icône ouvrir) pour télécharger un fichier JSON dans la table des options de configuration.
Sélectionnez OK pour créer votre connexion Apache Spark direct.