Apache Spark sur Databricks
Utilisez ces instructions pour apprendre à vous connecter à Databricks et à créer une chaîne de connexion Alteryx.
Outils Alteryx utilisés pour la connexion
- Outil Connecter en BDD, Outil Entrée du flux de donnéeset Outil de code Spark Apache (traitement de workflow dans la base de données)
Détails supplémentaires
Connectez-vous à Apache Spark en faisant glisser un outil Connect in-dB ou l'outil Apache Spark code sur le canevas. Créez une nouvelle connexion à Databricks à l'aide du pilote Apache Spark on Databricks. Utilisez les instructions ci-dessous pour configurer la connexion. pour plus d'informations, consultez Databricks documentation.
Configurer la fenêtre de connexion Databricks
Pour vous connecter à Databricks et créer une chaîne de connexion Alteryx:
- Saisissez votre ID de compte Databricks.
- Collez le jeton Databricks que vous avez généré dans vos paramètres utilisateur Databricks. Les jetons peuvent expirer et être révoqués.
- Cliquez sur Connexion. Designer affiche une liste de clusters Databricks auxquels se connecter. Si la connexion n'est pas réussie, essayez de nouveau d'entrer vos informations d'identification.
- Sélectionnez un cluster Databricks auquel vous devez vous connecter.
- Sélectionnez un type de session. Sélectionnez l'une des suivantes selon le code que vous écrivez:
- Scala
- Python
- R
- Facultativement, tapez un nom d'exécution descriptif pour le travail afin que vous puissiez l'identifier plus tard. Les noms d'exécution aident les utilisateurs à distinguer un travail d'un autre sur le serveur. Le nom par défaut est sans titre si laissé vide.
- Réglez le délai d'attente en nombre de minutes. Il s'agit du nombre de minutes de non-activité avant l'arrêt du travail. Si vous entrez 15 minutes, le travail peut rester inactif sans aucune activité pendant 15 minutes avant qu'il ne soit sorti. pour plus d'informations, consultez Databricks documentation.
- Ajouter des bibliothèques en plus de l'ensemble de bibliothèques qui est déjà fourni pour écrire votre propre code.
Type de fichier
Description
Pot
Java Archive
oeuf
Format de distribution importable à fichier unique pour les projets liés à python
PyPi
Python package index est un référentiel de logiciels pour Python
Maven
un référentiel pour les fichiers et les artefacts.
CRAN R package de fichiers
- Dans la connexion Databricks, cliquez sur OK .
- Dans gérer les connexions in-db, cliquez sur OK pour créer une chaîne de connexion Alteryx.
Cliquez sur l'icône "+" pour ajouter une ligne. Cliquez sur Enregistrer pour enregistrer les paramètres de configuration de la bibliothèque dans un fichier. Utilisez l' icône dossier de fichier pour localiser un fichier de configuration enregistré. Pour supprimer une ligne, survolez-la, puis sélectionnez l'icône Corbeille.