Apache Spark Direct
Verbindungstyp | REST-/HTML-Server |
Distributionen validiert auf | Hortonworks 2.6; Cloudera 5.7 |
Serverdetails | Apache Livy-Downloadinformationen finden Sie hier . |
Typ der Unterstützung | In-DB |
Validiert auf | Apache Livy 0.3; Apache Spark 1.6, 2.0, 2.1 und 2.2 |
Alteryx-Tools für die Verbindung
In-DB-Workflow-Verarbeitung
Stellen Sie eine Verbindung zu Apache Spark her, indem Sie ein In-DB-verbinden-Tool oder das Apache-Spark-Code-Tool auf den Canvas ziehen. Erstellen Sie eine neue Livy-Verbindung mit dem Apache Spark Direct-Treiber. Befolgen Sie die Anweisungen unten, um die Verbindung zu konfigurieren.
Fenster „Livy-Verbindung konfigurieren“
So stellen Sie eine Verbindung zu Livy Server her und erstellen eine Alteryx-Verbindungszeichenfolge:
Eine neue In-DB-Verbindung hinzufügen und Daten quelle auf Apache Spark Direct einstellen. Weitere Informationen zum Einrichten einer In-DB-Verbindung finden Sie unter In-DB-verbinden-Tool .
Auf der Registerkarte Lesen ist Treiber auf Apache Spark Direct festgelegt. Klicken Sie auf den Dropdown-Pfeil Verbindungs zeichenfolge und wählen Sie Neue Datenbankverbindung .
Das Fenster Livy - Verbindung konfigurieren.
Livy-Serverkonfiguration
Wählen Sie Ihre Sicherheitseinstellung:
Fügen oder geben Sie die Host -IP-Adresse oder den DNS-Namen des Livy-Knotens in Ihrem Apache Spark-Cluster ein.
Geben Sie den von Livy verwendeten Port ein. Der Standardport ist 8998.
Optional können Sie den Benutzer namen angeben, um die Benutzerpersonifikation einzustellen, den von Apache Spark beim Ausführen von Aufträgen verwendeten Namen.
Fügen oder geben Sie die URL Ihres Knox-Gateways ein.
Geben Sie Benutzer name und Kennwort für das betreffende Gateway ein.
Optionaler Verbindungstest:
Wählen Sie die auf Ihrem Cluster verwendete Apache Spark - Version .
Wählen Sie den Verbindungstyp Kerberos.
Wählen Sie Test .
Stellen Sie den Verbindungs modus auf die im Apache-Spark-Code-Tool zu verwendende Coding-Sprache ein.
HDFS-Verbindung
Wählen Sie die Server konfigurations option, die dem für die Kommunikation mit dem Cluster verwendeten HDFS-Protokoll entspricht.
Geben Sie die Host -IP-Adresse oder den DNS-Namen als HDFS-Knotennamen in Ihrem Apache Spark-Cluster ein.
Geben Sie die Port -Nummer ein. Der Standardport wird automatisch eingestellt.
Geben Sie die Host -IP-Adresse oder den DNS-Namen als HDFS-Knotennamen in Ihrem Apache Spark-Cluster ein.
Geben Sie die Port -Nummer ein. Der Standardport wird automatisch eingestellt.
Fügen oder geben Sie die URL Ihres Knox-Gateways ein.
Optional können Sie den Benutzernamen für die HDFS-Verbindung eingeben.
Optional können Sie das Kennwort für die HDFS-Verbindung eingeben.
Wählen Sie das zu verwendende Kerberos-Protokoll.
Erweiterte Optionen
Einstellen des Poll-Intervals (ms), die Zeit, die zwischen den Alteryx-Prüfungen auf Apache Spark-Codeausführungsanfragen liegt. Die Standardeinstellung ist 1.000 ms oder 1 Sekunde.
Einstellen der Wartezeit (ms), die Zeit, die Alteryx auf das Abschließen von Ausführungsanfragen wartet. Operationen, die mehr Zeit benötigen als die eingestellte Wartezeit, führen zu einem Time-out-Fehler. Die Standardeinstellung ist 60.000 ms oder 1 Minute.
Die Apache Spark-Konfigurationsoptionen passen den erstellten Apache Spark-Kontext an und ermöglichen ein Überschreiben der Apache Spark-Standardeinstellungen durch fortgeschrittene Benutzer.
Anmerkung
Die voreingestellte Konfigurationsoption ist spark.jars.packages und der Wert ist com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1. Abhängig von Ihrer Apache Spark-Version müssen Sie den Standardwert gegebenenfalls überschreiben.
Apache Spark-Version | Wert |
---|---|
2.0 - 2.1 | com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0 |
2.2 | com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0 |
Wählen Sie das (+-Symbol) aus, um der Konfigurationsoptionstabelle eine weitere Zeile hinzuzufügen.
Wählen Sie das (Speichern-Symbol) aus, um die aktuellen fortgeschrittenen Einstellungen als JSON-Datei zu speichern. Die Datei kann dann in den fortgeschrittenen Einstellungen einer anderen Verbindung geladen werden.
Wählen Sie das (Öffnen-Symbol) aus, um eine JSON-Datei in die Konfigurationsoptionstabelle zu laden.
Wählen Sie OK zum Erstellen Ihrer neuen Apache Spark Direct-Verbindung aus.
Einschränkungen
Zu diesem Zeitpunkt unterstützt Alteryx nativ Spark in Cloudera Data Platform (CDP), jedoch nicht Cloudera Distributed Hadoop (CDH).
TLS-/SSL-fähige Livy-Server werden nicht unterstützt.