Skip to main content

Apache Spark Direct

Verbindungstyp

REST-/HTML-Server

Distributionen validiert auf

Hortonworks 2.6; Cloudera 5.7

Serverdetails

Apache Livy-Downloadinformationen finden Sie hier .

Typ der Unterstützung

In-DB

Validiert auf

Apache Livy 0.3; Apache Spark 1.6, 2.0, 2.1 und 2.2

Alteryx-Tools für die Verbindung

In-DB-Workflow-Verarbeitung

Stellen Sie eine Verbindung zu Apache Spark her, indem Sie ein In-DB-verbinden-Tool oder das Apache-Spark-Code-Tool auf den Canvas ziehen. Erstellen Sie eine neue Livy-Verbindung mit dem Apache Spark Direct-Treiber. Befolgen Sie die Anweisungen unten, um die Verbindung zu konfigurieren.

Fenster „Livy-Verbindung konfigurieren“

So stellen Sie eine Verbindung zu Livy Server her und erstellen eine Alteryx-Verbindungszeichenfolge:

Eine neue In-DB-Verbindung hinzufügen und Daten quelle auf Apache Spark Direct einstellen. Weitere Informationen zum Einrichten einer In-DB-Verbindung finden Sie unter In-DB-verbinden-Tool .

Auf der Registerkarte Lesen ist Treiber auf Apache Spark Direct festgelegt. Klicken Sie auf den Dropdown-Pfeil Verbindungs zeichenfolge und wählen Sie Neue Datenbankverbindung .

Das Fenster Livy - Verbindung konfigurieren.

Livy-Serverkonfiguration

Wählen Sie Ihre Sicherheitseinstellung:

  • Fügen oder geben Sie die Host -IP-Adresse oder den DNS-Namen des Livy-Knotens in Ihrem Apache Spark-Cluster ein.

  • Geben Sie den von Livy verwendeten Port ein. Der Standardport ist 8998.

  • Optional können Sie den Benutzer namen angeben, um die Benutzerpersonifikation einzustellen, den von Apache Spark beim Ausführen von Aufträgen verwendeten Namen.

  • Fügen oder geben Sie die URL Ihres Knox-Gateways ein.

  • Geben Sie Benutzer name und Kennwort für das betreffende Gateway ein.

Optionaler Verbindungstest:

  • Wählen Sie die auf Ihrem Cluster verwendete Apache Spark - Version .

  • Wählen Sie den Verbindungstyp Kerberos.

  • Wählen Sie Test .

Stellen Sie den Verbindungs modus auf die im Apache-Spark-Code-Tool zu verwendende Coding-Sprache ein.

HDFS-Verbindung

Wählen Sie die Server konfigurations option, die dem für die Kommunikation mit dem Cluster verwendeten HDFS-Protokoll entspricht.

  • Geben Sie die Host -IP-Adresse oder den DNS-Namen als HDFS-Knotennamen in Ihrem Apache Spark-Cluster ein.

  • Geben Sie die Port -Nummer ein. Der Standardport wird automatisch eingestellt.

  • Geben Sie die Host -IP-Adresse oder den DNS-Namen als HDFS-Knotennamen in Ihrem Apache Spark-Cluster ein.

  • Geben Sie die Port -Nummer ein. Der Standardport wird automatisch eingestellt.

Fügen oder geben Sie die URL Ihres Knox-Gateways ein.

Optional können Sie den Benutzernamen für die HDFS-Verbindung eingeben.

Optional können Sie das Kennwort für die HDFS-Verbindung eingeben.

Wählen Sie das zu verwendende Kerberos-Protokoll.

Erweiterte Optionen

Einstellen des Poll-Intervals (ms), die Zeit, die zwischen den Alteryx-Prüfungen auf Apache Spark-Codeausführungsanfragen liegt. Die Standardeinstellung ist 1.000 ms oder 1 Sekunde.

Einstellen der Wartezeit (ms), die Zeit, die Alteryx auf das Abschließen von Ausführungsanfragen wartet. Operationen, die mehr Zeit benötigen als die eingestellte Wartezeit, führen zu einem Time-out-Fehler. Die Standardeinstellung ist 60.000 ms oder 1 Minute.

Die Apache Spark-Konfigurationsoptionen passen den erstellten Apache Spark-Kontext an und ermöglichen ein Überschreiben der Apache Spark-Standardeinstellungen durch fortgeschrittene Benutzer.

Anmerkung

Die voreingestellte Konfigurationsoption ist spark.jars.packages und der Wert ist com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1. Abhängig von Ihrer Apache Spark-Version müssen Sie den Standardwert gegebenenfalls überschreiben.

Apache Spark-Version

Wert

2.0 - 2.1

com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0

2.2

com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0

  • Wählen Sie das (+-Symbol) aus, um der Konfigurationsoptionstabelle eine weitere Zeile hinzuzufügen.

  • Wählen Sie das (Speichern-Symbol) aus, um die aktuellen fortgeschrittenen Einstellungen als JSON-Datei zu speichern. Die Datei kann dann in den fortgeschrittenen Einstellungen einer anderen Verbindung geladen werden.

  • Wählen Sie das (Öffnen-Symbol) aus, um eine JSON-Datei in die Konfigurationsoptionstabelle zu laden.

Wählen Sie OK zum Erstellen Ihrer neuen Apache Spark Direct-Verbindung aus.

Einschränkungen

Zu diesem Zeitpunkt unterstützt Alteryx nativ Spark in Cloudera Data Platform (CDP), jedoch nicht Cloudera Distributed Hadoop (CDH).

TLS-/SSL-fähige Livy-Server werden nicht unterstützt.