Apache Spark Direct

Type de connexion	Serveur REST/HTML
Distributions validées le	Hortonworks 2.6, Cloudera 5.7
Détails du serveur	Les informations de téléchargement d’Apache Livy sont disponibles ici.
Type de prise en charge	En base de données
Validé le	Apache Livy 0.3, Apache Spark 1.6, 2.0, 2.1, et 2.2

Outils Alteryx utilisés pour la connexion

Traitement de workflow en base de données

Outil Connecter en BDD	Outil Entrée du flux de données
Outil Code Apache Spark

Connectez-vous à Apache Spark en faisant glisser un outil Connecter en BDD ou l'outil Code Apache Spark dans l'espace de travail. Créez une nouvelle connexion Livy à l'aide du pilote Apache Spark Direct. Suivez les instructions ci-dessous pour configurer la connexion.

Configurez la fenêtre Connexion Livy

Pour vous connecter au serveur Livy et créer une chaîne de connexion Alteryx :

Ajoutez une nouvelle connexion en BDD, en réglant la Source de données sur Apache Spark Direct . Pour plus d'informations sur le paramétrage d'une connexion en BDD, voir l'outil Connecter en BDD .

Dans l'onglet Lecture , le Pilote sera verrouillé sur Apache Spark Direct . Cliquez sur la flèche déroulante de connexion String et sélectionnez Nouvelle connexion à la base de données .

Configurez la fenêtre de connexion Livy .

Configuration du serveur Livy

Sélectionnez vos préférences en matière de sécurité :

Aucun

Saisissez ou collez l'adresse IP ou le nom DNS de l'Hôte du nœud Livy au sein de votre cluster Apache Spark.
Saisissez le Port utilisé par Livy. Le port par défaut est 8998.
À titre facultatif, saisissez le Nom d'utilisateur pour définir le nom que Apache Spark utilisera lors de l'exécution des tâches.

Knox

Saisissez ou collez l' URL de votre passerelle Knox.
Saisissez le Nom d'utilisateur et le mot de passe associés à la passerelle correspondante.

À titre facultatif, testez la connexion :

Sélectionnez la version d' Apache Spark utilisée sur votre cluster.
Sélectionnez le type de connexion Kerberos.
Sélectionnez Test .

Paramétrez le mode de connexion selon la langue de codage à utiliser dans l'outil Code Apache Spark.

Connexion à un HDFS

Sélectionnez l'option de Configuration du serveur qui correspond au protocole HDFS utilisé pour communiquer avec le cluster.

HTTPFS

Saisissez l'adresse IP ou le nom DNS de l' Hôte pour le nœud du nom HDFS au sein de votre cluster Apache Spark.
Saisissez le numéro de Port . Le port par défaut sera renseigné automatiquement.

WebHDFS

Saisissez l'adresse IP ou le nom DNS de l' Hôte pour le nœud du nom HDFS au sein de votre cluster Apache Spark.
Saisissez le numéro de Port . Le port par défaut sera renseigné automatiquement.

Passerelle Knox

Saisissez ou collez l' URL de votre passerelle Knox.

À titre facultatif, saisissez le Nom d'utilisateur pour la connexion HDFS.

À titre facultatif, saisissez le Mot de passe pour la connexion HDFS.

Sélectionnez le protocole Kerberos à utiliser.

Options avancées

Définissez l'Intervalle de sondage (ms), la durée entre deux vérifications depuis Alteryx pour les demandes d'exécution du code Apache Spark. La valeur par défaut est de 1 000 ms, ou 1 seconde.

Définissez le Temps d’attente (ms), la durée pendant laquelle Alteryx doit attendre pour que les demandes d’exécution soient effectuées. Les opérations qui durent plus longtemps que le temps d'attente défini entraînent une erreur suite à une période d'inactivité trop longue. La valeur par défaut est de 60 000 ms, ou 1 minute.

Les Options de configuration Apache Spark permettent de personnaliser le contexte Apache Spark créé, et aux utilisateurs expérimentés d'ignorer les paramètres par défaut d'Apache Spark.

Note

Par défaut, l’option de configuration est spark.jars.packages et la Valeur est com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1. En fonction de votre version Apache Spark, il est possible que vous deviez ignorer la valeur par défaut.

Version d'Apache Spark	Valeur
2.0 - 2.1	com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0
2.2	com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0

Sélectionnez (+ icône) pour ajouter une nouvelle ligne à la table des options de configuration.
Sélectionnez (icône Enregistrer) pour enregistrer les paramètres actuels et avancés en tant que fichier JSON. Le fichier peut ensuite être téléchargé dans les paramètres avancés d’une autre connexion.
Sélectionnez (icône Ouvrir) pour télécharger un fichier JSON dans la table des options de configuration.

Sélectionnez OK pour créer votre connexion Apache Spark Direct.

Limites

Actuellement, Alteryx prend en charge Spark natif dans la plateforme de données Cloudera (CDP) mais pas dans la base de données Hadoop distribuée Cloudera (CDH).

Les serveurs Livy compatibles TLS/SSL ne sont pas pris en charge.