Databricks

Informationen zu den Authentifizierungsoptionen für Databricks finden Sie im Handbuch für Databricks & Alteryx.

Verbindungstyp	ODBC (64 Bit)
Anforderungen an die Treiberkonfiguration	Der Host muss ein JDBC/ODBC-Serverhostname des Databricks-Clusters sein. Für eine optimale Leistung müssen Sie die Option „Schnelles SQLPrepare“ in den erweiterten Treiberoptionen aktivieren, damit Alteryx Metadaten abrufen kann, ohne eine Abfrage auszuführen. Das Kontrollkästchen Übersetzung für CTAS aktiviert muss im DSN deaktiviert werden. Es ist standardmäßig aktiviert. Wenn Sie den visuellen Abfragegenerator verwenden möchten, wählen Sie in den erweiterten Treiberoptionen die Option „Tabellen mit Abfrage abrufen“ aus. Unterstützt sowohl unter AWS als auch unter Azure.
Typ der Unterstützung	Lesen und Schreiben; In-DB
Validiert am	Databricks Interactive und SQL Endpoint Cluster, Simba Apache Spark Driver 2.7.7.1017.

Alteryx-Tools für die Verbindung

Standard-Workflow-Verarbeitung

Eingabedaten-Tool

In-DB-Workflow-Verarbeitung

Wenn Sie Probleme beim Lesen oder Schreiben von Unicode®-Zeichen haben, greifen Sie auf den Simba Impala ODBC-Treiber zu. Wählen Sie unter Erweiterte Optionen die Option SQL Unicode-Typen verwenden aus.

Die Zeichenfolgenlänge wird vom Treiber gesteuert. Sie können sie in den erweiterten Optionen für den ODBC DSN ändern, oder über die erweiterten Optionen für die Treiberkonfiguration (diese finden Sie im Treiber-Installationsordner).

Unterstützung für Lesen

Installieren und konfigurieren Sie den Apache Spark ODBC-Treiber:

Spark-Servertyp: Wählen Sie den passenden Servertyp für die Version von Apache Spark aus, die Sie ausführen. Wenn Sie Apache Spark 1.1 und höher ausführen, wählen Sie den Apache SparkThriftServer aus.
Authentifizierungsmechanismus: Im zusammen mit dem Simba Spark-Treiber heruntergeladenen Installationshandbuch finden Sie auf Ihren Einstellungen basierende Informationen zur Konfiguration dieser Einstellung.

Informationen zur Einrichtung der erweiterten Treiberoptionen finden Sie im Installationshandbuch, das Sie mit dem Simba Apache Spark-Treiber heruntergeladen haben.

Unterstützung für Schreiben

Verwenden Sie sowohl für Standard- als auch für In-DB-Workflows das Eingehender-Datenstrom-Tool, um in Databricks zu schreiben. Die Schreibunterstützung erfolgt über den Databricks Bulk Loader. Gehen Sie zu In-DB-Verbindungen verwalten – Schreiben.

Konfiguration der Registerkarte Schreiben

Wählen Sie Databricks Bulk-Loader (Avro) oder DatabricksBulk-Loader (CSV) aus. Um in eine Tabelle mit Feldnamen von insgesamt mehr als 4000 Zeichen zu schreiben, verwenden Sie CSV statt Avro. Das für CSV verwendete Begrenzungszeichen ist das Zeichen für den Beginn der Kopfzeile (SOH, für Start of Heading).
Wählen Sie das Dropdown-Menü Verbindungszeichenfolge und dann Neue Databricks-Verbindung aus.
Wählen Sie eine vorhandene ODBC-Datenquelle aus, oder klicken Sie auf ODBC-Administrator, um eine zu erstellen.
Geben Sie Benutzernamen und Kennwort ein. Diese Felder dürfen nicht leer sein.
Geben Sie folgende Databricks-URL ein:
https://abc-abc123-123a.cloud.databricks.com
Warnung
Das Einfügen eines abschließenden „/“ in die URL (z. B. https://abc-abc123-123a.cloud.databricks.com/) führt zu einem Fehler.

Databricks Delta Lake Bulk-Verbindung

Mit Designer 2024.1 unterstützt die Redshift Bulk-Verbindung die AWS IAM-Authentifizierung (Identitäts- und Zugriffsmanagement).

Führen Sie die folgenden Schritte aus, um die Databricks Delta Lake Bulk-Verbindung zu konfigurieren.

Wichtig

Databricks Delta Lake Bulk-Verbindung ist nur in Designer Version 2022.1 und höher verfügbar.

Wählen Sie Databricks Delta Lake Bulk Loader (Avro) oder Databricks Delta LakeBulk-Loader (CSV) aus, um eine Tabelle mit Feldnamen zu schreiben, die insgesamt mehr als 4000 Zeichen umfassen.
Wählen Sie das Dropdown-Menü Verbindungszeichenfolge und dann Neue Datenbankverbindung aus.
Wählen Sie eine vorhandene ODBC-Datenquelle aus, oder klicken Sie auf ODBC-Administrator, um eine zu erstellen.
Geben Sie Benutzernamen und Kennwort ein. Diese Felder dürfen nicht leer sein. Alteryx unterstützt persönliche Zugriffstoken. Der Benutzername ist „Token“. Das Kennwort ist das persönliche Zugriffstoken.
Wählen Sie eine Staging-Methode aus (unterstützt sowohl unter AWS als auch unter Azure):
1. Für Amazon S3
  1. Geben Sie den AWS-Zugriffsschlüssel und den geheimen Schlüssel für die Authentifizierung ein.
  2. Wählen Sie einen Endpunkt aus, oder lassen Sie ihn auf Standard.
  3. Wählen Sie Signature V4 für Authentifizierung verwenden aus.
  4. Wählen Sie nach Bedarf die erforderliche Stufe der serverseitigen Verschlüsselung aus. Die Standardeinstellung ist „Keine“.
  5. Wählen Sie einen Bucket-Namen, der als Staging-Speicherort verwendet werden soll.
    Mit Designer 2024.1 unterstützt der Databricks Bulk-Loader die AWS IAM-Authentifizierung (Identitäts- und Zugriffsmanagement).
2. Für Azure ADLS
  Wichtig
  Für das Bulk-Laden von Azure wird nur ADLS Gen 2 unterstützt.
  1. Wählen Sie den ADLS-Behälter aus.
  2. Geben Sie den Gemeinsamen Schlüssel ein.
  3. Geben Sie das Speicherkonto ein.
  4. Geben Sie optional ein temporäres Verzeichnis ein. Wiederholen Sie beim Aufrufen des temporären Verzeichnisses nicht den Behälternamen.
    Beispiel
    Wenn die Ordnerstruktur „Container/MyTempFolder/TempTables“ lautet, geben Sie nur „MyTempFolder/TempTables“ ein.
    Wenn das hier eingegebene Verzeichnis noch nicht vorhanden ist, wird es von Alteryx erstellt.
    Alteryx erstellt einen Unterordner mit dem Tabellennamen für jede bereitgestellte Tabelle.
3. Wählen Sie zum Übernehmen OK aus.
  Mit Designer 2023.2 unterstützt der Databricks Bulk-Loader die Azure AD-Authentifizierung für das ADLS-Staging. Diese Funktion verbessert die Sicherheit von Databricks Bulk-Loader, da Unternehmen feinkörnig den Zugriff auf einzelne Behälter innerhalb eines Speicherkontos verwalten können.

Proxy-Details konfigurieren

Beim Erstellen oder Bearbeiten einer Databricks-Verbindung können Sie die Proxy-Server-Details angeben. Diese Einstellungen werden an den Simba ODBC-Treiber übergeben, um die Verbindung herzustellen.

Die folgenden Proxy-Felder sind verfügbar:

Proxy-Host: Der Hostname des Proxy-Servers.
Proxy-Port: Die vom Proxy-Server verwendete Portnummer.
Proxy-Benutzername: Die Anmeldedaten (Benutzername) für die Proxy-Authentifizierung.
Proxy-Kennwort: Die Anmeldedaten (Kennwort) für die Proxyauthentifizierung.

Anmerkung

Diese Einstellungen gelten nur für Databricks-Verbindungen. Andere Datenquellen verwenden diese Proxykonfigurationen nicht.

In diesem Abschnitt: