Apache Spark sur Databricks

Type de connexion	Serveur REST/HTML
Distributions validées le	Databricks
Détails du serveur	Vous trouverez ici les informations Databricks.
Type de prise en charge	En base de données
Validé le	Version du client ODBC : 2.6.23.1039

Outils Alteryx utilisés pour la connexion

Traitement de workflow en base de données

Outil Connecter en BDD	Outil Entrée du flux de données
Outil Code Apache Spark

Connectez-vous à Apache Spark en faisant glisser un outil Connecter en BDD ou l'outil Code Apache Spark dans l'espace de travail. Créez une nouvelle connexion Livy à l'aide du pilote Apache Spark Direct. Suivez les instructions ci-dessous pour configurer la connexion.

Configurez la fenêtre de connexion Databricks

Pour vous connecter à Databricks et créer une chaîne de connexion Alteryx…

Entrez votre ID de compte ou région.
- Pour Databricks hébergé sur AWS, entrez votre ID de compte Databricks. Vous pouvez récupérer l'ID de compte dans la console de compte Databricks en sélectionnant la flèche vers le bas à côté de votre nom d'utilisateur dans le coin supérieur droit.
- Pour Databricks hébergé sur Azure, entrez votre région. Région est l'emplacement du centre de données Azure. Il peut être fourni par votre administrateur Databricks.
Collez les jetons Databricks que vous avez généré dans vos paramètres utilisateur Databricks. Les jetons peuvent expirer et être révoqués.
Sélectionnez Se connecter. Designer affiche une liste des clusters Databricks auxquels se connecter. Si la connexion échoue, essayez de saisir à nouveau vos informations d'identification.
Sélectionnez un cluster Databricks auquel vous connecter.
Sélectionnez un Typede session. Sélectionnez l'une de ces options, en fonction du code que vous écrivez :
- Scala
- Python
- R
Vous pouvez également saisir un nom d'exécutiondescriptif pour le travail afin de pouvoir l'identifier ultérieurement. Les noms d'exécution aident les utilisateurs à distinguer une tâche d'une autre sur le serveur. Le nom par défaut est sans titre s'il est laissé vide.
Définissez le délai d'attente en nombre de minutes. Il s'agit du nombre de minutes d'inactivité avant l'arrêt de la tâche. Si vous entrez 15 minutes, la tâche peut rester inactive sans aucune activité pendant 15 minutes avant d'expirer. Voir la documentation Databricks pour plus d'informations.

Ajoutez des Bibliothèques en plus de l'ensemble de bibliothèques déjà fourni pour écrire votre propre code.

Type de fichier	Description
jar	Java ARchive
egg	Format de distribution importable à fichier unique pour les projets liés à Python.
PyPi	Python Package Index est un recueil de logiciel pour Python.
Maven	Un recueil pour les fichiers et les artefacts.
CRAN	Package R File

Sélectionnez l'icône « + » pour ajouter une ligne. Sélectionnez Enregistrer pour enregistrer les paramètres de configuration de la bibliothèque dans un fichier. Utilisez l'icônede dossierFichier pour localiser un fichier de configuration enregistré. Pour supprimer une ligne, placez-vous au-dessus, puis sélectionnez l'icône Corbeille.

Dans connexionDatabricks, sélectionnez OK.
Dans Gérerles connexionsen BDD, sélectionnez OK pour créer une chaîne de connexion Alteryx.

Dans cette section:

Apache Spark sur Databricks

Outils Alteryx utilisés pour la connexion

Traitement de workflow en base de données

Configurez la fenêtre de connexion Databricks

Résultats de la recherche