Apache Spark auf Databricks
Verbindungstyp | REST-/HTML-Server |
Distributionen validiert auf | Databricks |
Serverdetails | Databricks-Informationen finden Sie hier. |
Typ der Unterstützung | In-DB |
Validiert auf | ODBC-Clientversion: 2.6.23.1039 |
Alteryx-Tools für die Verbindung
In-DB-Workflow-Verarbeitung
Stellen Sie eine Verbindung zu Apache Spark her, indem Sie ein In-DB-verbinden-Tool oder das Apache-Spark-Code-Tool auf den Canvas ziehen. Erstellen Sie eine neue Livy-Verbindung mit dem Apache Spark Direct-Treiber. Befolgen Sie die Anweisungen unten, um die Verbindung zu konfigurieren.
Konfiguration des Fensters „Databricks-Verbindung“
So stellen Sie eine Verbindung zu Databricks her und erstellen eine Alteryx-Verbindungszeichenfolge ...
Geben Sie Ihre Konto-ID oder Region ein.
Geben Sie für auf AWS gehostete Databricks Ihre Databricks Konto-ID ein. Sie können die Konto-ID in der Databricks-Kontokonsole abrufen, indem Sie den Abwärtspfeil neben Ihrem Benutzernamen in der oberen rechten Ecke auswählen.
Geben Sie für auf Azure gehostete Databricks Ihre Region ein. Die Region ist der Standort des Azure-Rechenzentrums. Sie erhalten diese von Ihrem Databricks-Administrator.
Fügen Sie das in den Databricks-Benutzereinstellungen generierte Databricks-Token ein. Token können ablaufen und widerrufen werden.
Wählen Sie Verbinden aus. Designer zeigt eine Liste der Databricks-Cluster an, zu denen eine Verbindung hergestellt werden soll. Wenn die Verbindung fehlschlägt, versuchen Sie erneut, Ihre Anmeldedaten einzugeben.
Wählen Sie einen Databricks-Cluster für die Verbindung aus.
Wählen Sie einen Sitzungstyp aus. Wählen Sie abhängig vom Code, den Sie schreiben, einen davon aus:
Skala
Python
R
Geben Sie optional einen aussagekräftigen Ausführungsnamen für den Auftrag ein, um ihn später besser erkennen zu können. Ausführungsnamen helfen Benutzern, einen Auftrag von einem anderen auf dem Server zu unterscheiden. Der Name wird standardmäßig auf „Untitled“ (Unbenannt) gesetzt, wenn er leer gelassen wird.
Legen Sie die Zeitüberschreitung in Minuten fest. Die Anzahl der Minuten an Inaktivität, bevor der Auftrag beendet wird. Wenn Sie 15 Minuten eingeben, kann der Auftrag 15 Minuten lang ohne Aktivität (also inaktiv) bleiben, bevor die Zeitüberschreitung eintritt. Weitere Informationen finden Sie unter Databricks-Dokumentation.
Fügen Sie Bibliotheken zusätzlich zu dem bereits bereitgestellten Set an Bibliotheken hinzu, um eigenen Code zu schreiben.
Dateityp
Beschreibung
jar
Java-Archiv
egg
Importierbares Verteilungsformat für einzelne Dateien in Python-bezogenen Projekten.
PyPi
Python Package Index ist ein Software-Repository für Python.
Maven
Ein Repository für Dateien und Artefakte.
CRAN
R-Dateipaket
Klicken Sie auf das Symbol „+“, um eine Zeile hinzuzufügen. Wählen Sie Speichern aus, um die Konfigurationseinstellungen der Bibliothek in einer Datei zu speichern. Verwenden Sie das Dateiordner-Symbol, um zu einer gespeicherten Konfigurationsdatei zu navigieren. Um eine Zeile zu löschen, bewegen Sie den Mauszeiger darüber und wählen Sie das Papierkorb-Symbol aus.
Klicken Sie unter Databricks-Verbindung auf OK.
Klicken Sie unter In-DB-Verbindungenverwalten, auf OK, um eine Alteryx-Verbindungszeichenfolge zu erstellen.