Apache Spark sur Databricks

Utilisez ces instructions pour apprendre à vous connecter à Databricks et à créer une chaîne de connexion Alteryx.

Prise en charge : En base de données
Validé le : Apache Spark 2,0, 2,1 et 2,2
Distributions validées le : Databricks
Type de connexion : Serveur REST/HTML
Détails du serveur : Databricks informations peuvent être trouvées ici.

Outils Alteryx utilisés pour la connexion

Détails supplémentaires

Connectez-vous à Apache Spark en faisant glisser un outil Connect in-dB ou l'outil Apache Spark code sur le canevas. Créez une nouvelle connexion à Databricks à l'aide du pilote Apache Spark on Databricks. Utilisez les instructions ci-dessous pour configurer la connexion. pour plus d'informations, consultez Databricks documentation.

Configurer la fenêtre de connexion Databricks

Pour vous connecter à Databricks et créer une chaîne de connexion Alteryx:

  1. Saisissez votre ID de compte Databricks.
  2. Collez le jeton Databricks que vous avez généré dans vos paramètres utilisateur Databricks. Les jetons peuvent expirer et être révoqués.
  3. Cliquez sur Connexion. Designer affiche une liste de clusters Databricks auxquels se connecter. Si la connexion n'est pas réussie, essayez de nouveau d'entrer vos informations d'identification.
  4. Sélectionnez un cluster Databricks auquel vous devez vous connecter.
  5. Sélectionnez un type de session. Sélectionnez l'une des suivantes selon le code que vous écrivez:
    • Scala
    • Python
    • R
  6. Facultativement, tapez un nom d'exécution descriptif pour le travail afin que vous puissiez l'identifier plus tard. Les noms d'exécution aident les utilisateurs à distinguer un travail d'un autre sur le serveur. Le nom par défaut est sans titre si laissé vide.
  7. Réglez le délai d'attente en nombre de minutes. Il s'agit du nombre de minutes de non-activité avant l'arrêt du travail. Si vous entrez 15 minutes, le travail peut rester inactif sans aucune activité pendant 15 minutes avant qu'il ne soit sorti. pour plus d'informations, consultez Databricks documentation.
  8. Ajouter des bibliothèques en plus de l'ensemble de bibliothèques qui est déjà fourni pour écrire votre propre code.

    Type de fichier

    Description

    Pot

    Java Archive

    oeuf

    Format de distribution importable à fichier unique pour les projets liés à python

    PyPi

    Python package index est un référentiel de logiciels pour Python

    Maven

    un référentiel pour les fichiers et les artefacts.

    CRAN

    R package de fichiers

  9. Cliquez sur l'icône "+" pour ajouter une ligne. Cliquez sur Enregistrer pour enregistrer les paramètres de configuration de la bibliothèque dans un fichier. Utilisez l' icône dossier de fichier pour localiser un fichier de configuration enregistré. Pour supprimer une ligne, survolez-la, puis sélectionnez l'icône Corbeille.

  10. Dans la connexion Databricks, cliquez sur OK .
  11. Dans gérer les connexions in-db, cliquez sur OK pour créer une chaîne de connexion Alteryx.