Apache Spark sur Databricks
Type de connexion | Serveur REST/HTML |
Distributions validées le | Databricks |
Détails du serveur | Vous trouverez ici les informations Databricks. |
Type de prise en charge | En base de données |
Validé le | Version du client ODBC : 2.6.23.1039 |
Outils Alteryx utilisés pour la connexion
Traitement de workflow en base de données
Connectez-vous à Apache Spark en faisant glisser un outil Connecter en BDD ou l'outil Code Apache Spark dans l'espace de travail. Créez une nouvelle connexion Livy à l'aide du pilote Apache Spark Direct. Suivez les instructions ci-dessous pour configurer la connexion.
Configurez la fenêtre de connexion Databricks
Pour vous connecter à Databricks et créer une chaîne de connexion Alteryx…
Entrez votre ID de compte ou région.
Pour Databricks hébergé sur AWS, entrez votre ID de compte Databricks. Vous pouvez récupérer l'ID de compte dans la console de compte Databricks en sélectionnant la flèche vers le bas à côté de votre nom d'utilisateur dans le coin supérieur droit.
Pour Databricks hébergé sur Azure, entrez votre région. Région est l'emplacement du centre de données Azure. Il peut être fourni par votre administrateur Databricks.
Collez les jetons Databricks que vous avez généré dans vos paramètres utilisateur Databricks. Les jetons peuvent expirer et être révoqués.
Sélectionnez Se connecter. Designer affiche une liste des clusters Databricks auxquels se connecter. Si la connexion échoue, essayez de saisir à nouveau vos informations d'identification.
Sélectionnez un cluster Databricks auquel vous connecter.
Sélectionnez un Typede session. Sélectionnez l'une de ces options, en fonction du code que vous écrivez :
Scala
Python
R
Vous pouvez également saisir un nom d'exécutiondescriptif pour le travail afin de pouvoir l'identifier ultérieurement. Les noms d'exécution aident les utilisateurs à distinguer une tâche d'une autre sur le serveur. Le nom par défaut est sans titre s'il est laissé vide.
Définissez le délai d'attente en nombre de minutes. Il s'agit du nombre de minutes d'inactivité avant l'arrêt de la tâche. Si vous entrez 15 minutes, la tâche peut rester inactive sans aucune activité pendant 15 minutes avant d'expirer. Voir la documentation Databricks pour plus d'informations.
Ajoutez des Bibliothèques en plus de l'ensemble de bibliothèques déjà fourni pour écrire votre propre code.
Type de fichier
Description
jar
Java ARchive
egg
Format de distribution importable à fichier unique pour les projets liés à Python.
PyPi
Python Package Index est un recueil de logiciel pour Python.
Maven
Un recueil pour les fichiers et les artefacts.
CRAN
Package R File
Sélectionnez l'icône « + » pour ajouter une ligne. Sélectionnez Enregistrer pour enregistrer les paramètres de configuration de la bibliothèque dans un fichier. Utilisez l'icônede dossierFichier pour localiser un fichier de configuration enregistré. Pour supprimer une ligne, placez-vous au-dessus, puis sélectionnez l'icône Corbeille.
Dans connexionDatabricks, sélectionnez OK.
Dans Gérerles connexionsen BDD, sélectionnez OK pour créer une chaîne de connexion Alteryx.