Apache Spark Direct
Type de connexion | Serveur REST/HTML |
Distributions validées le | Hortonworks 2.6, Cloudera 5.7 |
Détails du serveur | Les informations de téléchargement d’Apache Livy sont disponibles ici. |
Type de prise en charge | En base de données |
Validé le | Apache Livy 0.3, Apache Spark 1.6, 2.0, 2.1, et 2.2 |
Outils Alteryx utilisés pour la connexion
Traitement de workflow en base de données
Connectez-vous à Apache Spark en faisant glisser un outil Connecter en BDD ou l'outil Code Apache Spark dans l'espace de travail. Créez une nouvelle connexion Livy à l'aide du pilote Apache Spark Direct. Suivez les instructions ci-dessous pour configurer la connexion.
Configurez la fenêtre Connexion Livy
Pour vous connecter au serveur Livy et créer une chaîne de connexion Alteryx :
Ajoutez une nouvelle connexion en BDD, en réglant la Source de données sur Apache Spark Direct . Pour plus d'informations sur le paramétrage d'une connexion en BDD, voir l'outil Connecter en BDD .
Dans l'onglet Lecture , le Pilote sera verrouillé sur Apache Spark Direct . Cliquez sur la flèche déroulante de connexion String et sélectionnez Nouvelle connexion à la base de données .
Configurez la fenêtre de connexion Livy .
Configuration du serveur Livy
Sélectionnez vos préférences en matière de sécurité :
Saisissez ou collez l'adresse IP ou le nom DNS de l'Hôte du nœud Livy au sein de votre cluster Apache Spark.
Saisissez le Port utilisé par Livy. Le port par défaut est 8998.
À titre facultatif, saisissez le Nom d'utilisateur pour définir le nom que Apache Spark utilisera lors de l'exécution des tâches.
Saisissez ou collez l' URL de votre passerelle Knox.
Saisissez le Nom d'utilisateur et le mot de passe associés à la passerelle correspondante.
À titre facultatif, testez la connexion :
Sélectionnez la version d' Apache Spark utilisée sur votre cluster.
Sélectionnez le type de connexion Kerberos.
Sélectionnez Test .
Paramétrez le mode de connexion selon la langue de codage à utiliser dans l'outil Code Apache Spark.
Connexion à un HDFS
Sélectionnez l'option de Configuration du serveur qui correspond au protocole HDFS utilisé pour communiquer avec le cluster.
Saisissez l'adresse IP ou le nom DNS de l' Hôte pour le nœud du nom HDFS au sein de votre cluster Apache Spark.
Saisissez le numéro de Port . Le port par défaut sera renseigné automatiquement.
Saisissez l'adresse IP ou le nom DNS de l' Hôte pour le nœud du nom HDFS au sein de votre cluster Apache Spark.
Saisissez le numéro de Port . Le port par défaut sera renseigné automatiquement.
Saisissez ou collez l' URL de votre passerelle Knox.
À titre facultatif, saisissez le Nom d'utilisateur pour la connexion HDFS.
À titre facultatif, saisissez le Mot de passe pour la connexion HDFS.
Sélectionnez le protocole Kerberos à utiliser.
Options avancées
Définissez l'Intervalle de sondage (ms), la durée entre deux vérifications depuis Alteryx pour les demandes d'exécution du code Apache Spark. La valeur par défaut est de 1 000 ms, ou 1 seconde.
Définissez le Temps d’attente (ms), la durée pendant laquelle Alteryx doit attendre pour que les demandes d’exécution soient effectuées. Les opérations qui durent plus longtemps que le temps d'attente défini entraînent une erreur suite à une période d'inactivité trop longue. La valeur par défaut est de 60 000 ms, ou 1 minute.
Les Options de configuration Apache Spark permettent de personnaliser le contexte Apache Spark créé, et aux utilisateurs expérimentés d'ignorer les paramètres par défaut d'Apache Spark.
Note
Par défaut, l’option de configuration est spark.jars.packages et la Valeur est com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1. En fonction de votre version Apache Spark, il est possible que vous deviez ignorer la valeur par défaut.
Version d'Apache Spark | Valeur |
---|---|
2.0 - 2.1 | com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0 |
2.2 | com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0 |
Sélectionnez (+ icône) pour ajouter une nouvelle ligne à la table des options de configuration.
Sélectionnez (icône Enregistrer) pour enregistrer les paramètres actuels et avancés en tant que fichier JSON. Le fichier peut ensuite être téléchargé dans les paramètres avancés d’une autre connexion.
Sélectionnez (icône Ouvrir) pour télécharger un fichier JSON dans la table des options de configuration.
Sélectionnez OK pour créer votre connexion Apache Spark Direct.
Limites
Actuellement, Alteryx prend en charge Spark natif dans la plateforme de données Cloudera (CDP) mais pas dans la base de données Hadoop distribuée Cloudera (CDH).
Les serveurs Livy compatibles TLS/SSL ne sont pas pris en charge.