Skip to main content

Dataproc-Engine

Dataproc ist eine verteilte Spark-Engine, die Ihre Cloud-nativen Workflows ausführen kann, wenn Ihr Arbeitsbereich mit GCS als privater Datenspeicher eingerichtet ist. Die Dataproc-Engine bietet u. a. folgende Vorteile:

  • Dataproc eignet sich im Vergleich zur AMP Engine optimal für größere Datasets und komplexe Workflows.

  • Ihre Daten verlassen Ihre Google Cloud Project (GCP)-Umgebung nicht.

  • Sie können die Betriebskosten senken, indem Sie die Dataproc-Engine in Ihrer GCP-Umgebung ausführen.

  • Im Vergleich zur AMP Engine haben Sie mehr Kontrolle über die Dataproc-Engine-Konfiguration.

Wichtig

Ein:e Arbeitsbereich-Administrator muss die Dataproc-Engine in Ihrem Arbeitsbereich konfigurieren und aktivieren. Weitere Informationen finden Sie unter Dataproc-Engine – Einrichtungsleitfaden.

So verwenden Sie die Dataproc-Engine

  1. Öffnen Sie Ihren Cloud-nativen Workflow.

  2. Wählen Sie Dataproc aus der Dropdown-Liste der Engine neben Auftrag ausführen aus.

    Anmerkung

    Die Dropdown-Liste der Engine ist grau unterlegt, bis Sie ein Datenausgabe-Tool zu Ihrem Workflow hinzufügen und konfigurieren.

  3. Wählen Sie Auftrag ausführen aus.