Skip to main content

Apache Spark auf Databricks

Verbindungstyp

REST-/HTML-Server

Distributionen validiert auf

Databricks

Serverdetails

Databricks-Informationen finden Sie hier .

Typ der Unterstützung

In-DB

Validiert auf

ODBC-Clientversion: 2.6.23.1039

Alteryx-Tools für die Verbindung

In-DB-Workflow-Verarbeitung

Blue icon with database being plugged in.
Blue icon with a stream-like object flowing into a database.
Apache Spark Code Tool Icon

Stellen Sie eine Verbindung zu Apache Spark her, indem Sie ein In-DB-verbinden-Tool oder das Apache-Spark-Code-Tool auf den Canvas ziehen. Erstellen Sie eine neue Verbindung zu Databricks mit dem Apache Spark on Databricks-Treiber. Befolgen Sie die Anweisungen unten, um die Verbindung zu konfigurieren. Weitere Informationen finden Sie unter Databricks-Dokumentation .

Konfiguration des Fensters „Databricks-Verbindung“

So stellen Sie eine Verbindung zu Databricks her und erstellen eine Alteryx-Verbindungszeichenfolge ...

  1. Geben Sie Ihre Konto-ID oder Region ein.

    • Geben Sie für auf AWS gehostete Databricks Ihre Databricks Konto-ID ein. Sie können die Konto-ID in der Databricks-Kontokonsole abrufen, indem Sie den Abwärtspfeil neben Ihrem Benutzernamen in der oberen rechten Ecke auswählen.

    • Geben Sie für auf Azure gehostete Databricks Ihre Region ein. Die Region ist der Standort des Azure-Rechenzentrums. Sie erhalten diese von Ihrem Databricks-Administrator.

  2. Fügen Sie das in den Databricks-Benutzereinstellungen generierte Databricks- Token ein. Token können ablaufen und widerrufen werden.

  3. Wählen Sie Verbinden aus. Designer zeigt eine Liste der Databricks-Cluster an, zu denen eine Verbindung hergestellt werden soll. Wenn die Verbindung fehlschlägt, versuchen Sie erneut, Ihre Anmeldedaten einzugeben.

  4. Wählen Sie einen Databricks- Cluster für die Verbindung aus.

  5. Wählen Sie einen Sitzungs typ aus. Wählen Sie abhängig vom Code, den Sie schreiben, einen davon aus:

    • Skala

    • Python

    • R

  6. Geben Sie optional einen aussagekräftigen Ausführungs namen für den Auftrag ein, um ihn später besser erkennen zu können. Ausführungsnamen helfen Benutzern, einen Auftrag von einem anderen auf dem Server zu unterscheiden. Der Name wird standardmäßig auf „Untitled“ (Unbenannt) gesetzt, wenn er leer gelassen wird.

  7. Legen Sie die Zeitüberschreitung in Minuten fest. Die Anzahl der Minuten an Inaktivität, bevor der Auftrag beendet wird. Wenn Sie 15 Minuten eingeben, kann der Auftrag 15 Minuten lang ohne Aktivität (also inaktiv) bleiben, bevor die Zeitüberschreitung eintritt. Weitere Informationen finden Sie unter Databricks-Dokumentation .

  8. Fügen Sie Bibliotheken zusätzlich zu dem bereits bereitgestellten Set an Bibliotheken hinzu, um eigenen Code zu schreiben.

    Dateityp

    Beschreibung

    jar

    Java-Archiv

    egg

    Importierbares Verteilungsformat für einzelne Dateien in Python-bezogenen Projekten.

    PyPi

    Python Package Index ist ein Software-Repository für Python.

    Maven

    Ein Repository für Dateien und Artefakte.

    CRAN

    R-Dateipaket

    Klicken Sie auf das Symbol „ + “, um eine Zeile hinzuzufügen. Wählen Sie Speichern aus, um die Konfigurationseinstellungen der Bibliothek in einer Datei zu speichern. Verwenden Sie das Datei ordner -Symbol , um zu einer gespeicherten Konfigurationsdatei zu navigieren. Um eine Zeile zu löschen, bewegen Sie den Mauszeiger darüber und wählen Sie das Papierkorb-Symbol aus.

  9. Klicken Sie unter Databricks -Verbindung auf OK .

  10. Klicken Sie unter In-DB- Verbindungen verwalten , auf OK , um eine Alteryx-Verbindungszeichenfolge zu erstellen.