Apache Spark auf Microsoft Azure HDInsight

Verbindungstyp	REST-/HTML-Server
Distributionen validiert auf	Microsoft Azure HDInsight
Serverdetails	Informationen zu Microsoft Azure finden Sie hier.
Typ der Unterstützung	In-DB
Validiert auf	Spark 2.1, ADLS Gen1 Storage

Alteryx-Tools für die Verbindung

In-DB-Workflow-Verarbeitung

In-DB-verbinden-Tool	Eingehender-Datenstrom-Tool
Apache Spark Code Tool

Weitere Details

Verwenden Sie das Fenster Microsoft Azure HDInsight-Verbindung, um eine neue Verbindung zu Microsoft Azure HDInsight über die Option Microsoft Azure HDInsight zu erstellen. Befolgen Sie die Anweisungen unten, um die Verbindung zu konfigurieren.

Konfigurieren des Fensters Microsoft Azure HDInsight-Verbindung

So stellen Sie eine Verbindung zu Microsoft Azure HDInsight her und erstellen eine Alteryx-Verbindungszeichenfolge ...

Neue In-DB-Verbindung hinzufügen. Stellen Sie die Datenquelle unter Microsoft Azure HDInsight auf Apache Spark ein. Weitere Informationen zum Einrichten einer In-DB-Verbindung finden Sie unter In-DB-verbinden-Tool.
Auf der Registerkarte Lesen ist der Treiber auf Apache Spark unter Microsoft Azure HDInsight eingestellt. Wählen Sie den Dropdown-Pfeil Verbindungszeichenfolge aus, und wählen Sie Neue Datenbankverbindung aus.
Konfigurieren des Fensters Microsoft Azure HDInsight-Verbindung.

Konfiguration von Microsoft Azure HDInsight

Konfigurieren Sie die Azure-URL.
- Geben Sie die Azure-URL für Ihre Microsoft Azure HDInsight-Verbindung ein, oder fügen Sie sie ein. Beispiel: https://<clustername>.azurehdinsight.net/
- Geben Sie Benutzername und Kennwort für die Verbindung ein.
- Wenden Sie sich an Ihren Administrator, um Benutzernamen und Kennwort für den Cluster-Administrator-Benutzer zu erfahren, den Sie beim Einrichten Ihres Microsoft Azure HDInsight-Clusters konfiguriert haben.
- Wählen Sie die auf Ihrem Cluster verwendete Apache Spark-Version.
Wählen Sie Test aus, um die Verbindung zu testen.
Stellen Sie den Verbindungsmodus auf die im Apache Spark Code-Tool zu verwendende Coding-Sprache ein.
Stellen Sie eine Verbindung zu Ihrem Microsoft Azure-Speicherkonto her.

Azure-Speicher

Geben Sie die Speicher-URL für den Speicher (ADLS Gen1 Storage) ein, der mit Ihrer Verbindung verwendet werden soll. Das HTTPS-Protokoll ist für diese URL erforderlich.
Geben Sie die Tenant-ID-GUID ein. Dies finden Sie in den Eigenschaften unter Microsoft Azure Active Directory > Eigenschaften > Verzeichnis-ID.
Geben Sie die Client-ID ein. In Microsoft Azure werden diese Informationen auch als Anwendungs-ID bezeichnet. Dies finden Sie in den Eigenschaften unter Microsoft Azure Active Directory > App-Registrierung. Weitere Informationen finden Sie unter Microsoft-Dokumentation > Anwendungs-ID und Authentifizierungsschlüssel abrufen.
Geben Sie das Client-Geheimnis ein. In Microsoft Azure werden diese Informationen als Authentifizierungsschlüsselzeichenfolge aus der Anwendungs-ID generiert. Weitere Informationen finden Sie auf der Seite Microsoft Azure – Integration von Anwendungen in Azure Active Directory.

Erweiterte Optionen

Einstellen des Poll-Intervalls (ms), die Zeit, die zwischen den Alteryx-Prüfungen auf Apache Spark-Codeausführungsanfragen liegt. Die Standardeinstellung ist 1.000 ms oder 1 Sekunde.
Einstellen der Wartezeit (ms), die Zeit, die Alteryx auf das Abschließen von Ausführungsanfragen wartet. Operationen, die mehr Zeit benötigen als die eingestellte Wartezeit, führen zu einem Time-out-Fehler. Die Standardeinstellung ist 60.000 ms oder 1 Minute.
Die Apache Spark-Konfigurationsoptionen passen den erstellten Apache Spark-Kontext an und ermöglichen ein Überschreiben der Apache Spark-Standardeinstellungen durch fortgeschrittene Benutzer.

Anmerkung

Die voreingestellte Konfigurationsoption ist spark.jars.packages und der Wert ist com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1. Abhängig von Ihrer Apache Spark-Version müssen Sie den Standardwert gegebenenfalls überschreiben.

Apache Spark-Version	Wert
2.0 - 2.1	`com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0`
2.2	`com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0`

Wählen Sie das +-Symbol aus, um der Konfigurationsoptionstabelle eine weitere Zeile hinzuzufügen.
Wählen Sie das Speichern-Symbol aus, um die aktuellen fortgeschrittenen Einstellungen als JSON-Datei zu speichern. Die Datei kann dann in den fortgeschrittenen Einstellungen einer anderen Verbindung geladen werden.
Wählen Sie das Öffnen-Symbol aus, um eine JSON-Datei in die Konfigurationsoptionstabelle zu laden.

Wählen Sie OK aus, um Ihre Verbindung mit Apache Spark auf Microsoft Azure HDInsight herzustellen.