Skip to main content

Apache Spark sur Databricks

Type de connexion

Serveur REST/HTML

Distributions validées le

Databricks

Détails du serveur

Vous trouverez ici les informations Databricks.

Type de prise en charge

En base de données

Validé le

Version du client ODBC : 2.6.23.1039

Outils Alteryx utilisés pour la connexion

Traitement de workflow en base de données

Blue icon with database being plugged in.
Blue icon with a stream-like object flowing into a database.
Apache Spark Code Tool Icon

Connectez-vous à Apache Spark en faisant glisser un outil Connecter en BDD ou l'outil Code Apache Spark dans l'espace de travail. Créez une nouvelle connexion à Databricks en utilisant Apache Spark sur le pilote Databricks. Suivez les instructions ci-dessous pour configurer la connexion. Voir la documentation Databricks pour plus d'informations.

Configurez la fenêtre de connexion Databricks

Pour vous connecter à Databricks et créer une chaîne de connexion Alteryx…

  1. Entrez votre ID de compte ou région .

    • Pour Databricks hébergé sur AWS , entrez votre ID de compte Databricks . Vous pouvez récupérer l'ID de compte dans la console de compte Databricks en sélectionnant la flèche vers le bas à côté de votre nom d'utilisateur dans le coin supérieur droit.

    • Pour Databricks hébergé sur Azure , entrez votre région . Région est l'emplacement du centre de données Azure. Il peut être fourni par votre administrateur Databricks.

  2. Collez les jetons Databricks que vous avez généré dans vos paramètres utilisateur Databricks. Les jetons peuvent expirer et être révoqués.

  3. Sélectionnez Se connecter . Designer affiche une liste des clusters Databricks auxquels se connecter. Si la connexion échoue, essayez de saisir à nouveau vos informations d'identification.

  4. Sélectionnez un cluster Databricks auquel vous connecter.

  5. Sélectionnez un Type de session . Sélectionnez l'une de ces options, en fonction du code que vous écrivez :

    • Scala

    • Python

    • R

  6. Vous pouvez également saisir un nom d'exécution descriptif pour le travail afin de pouvoir l'identifier ultérieurement. Les noms d'exécution aident les utilisateurs à distinguer une tâche d'une autre sur le serveur. Le nom par défaut est sans titre s'il est laissé vide.

  7. Définissez le délai d'attente en nombre de minutes. Il s'agit du nombre de minutes d'inactivité avant l'arrêt de la tâche. Si vous entrez 15 minutes, la tâche peut rester inactive sans aucune activité pendant 15 minutes avant d'expirer. Voir la documentation Databricks pour plus d'informations.

  8. Ajoutez des Bibliothèques en plus de l'ensemble de bibliothèques déjà fourni pour écrire votre propre code.

    Type de fichier

    Description

    jar

    Java ARchive

    egg

    Format de distribution importable à fichier unique pour les projets liés à Python.

    PyPi

    Python Package Index est un recueil de logiciel pour Python.

    Maven

    Un recueil pour les fichiers et les artefacts.

    CRAN

    Package R File

    Sélectionnez l'icône «  +  » pour ajouter une ligne. Sélectionnez Enregistrer pour enregistrer les paramètres de configuration de la bibliothèque dans un fichier. Utilisez l' icône de dossier Fichier pour localiser un fichier de configuration enregistré. Pour supprimer une ligne, placez-vous au-dessus, puis sélectionnez l'icône Corbeille.

  9. Dans connexion Databricks , sélectionnez OK .

  10. Dans Gérer les connexions en BDD , sélectionnez OK pour créer une chaîne de connexion Alteryx.