Dataproc-Engine
Dataproc ist eine verteilte Spark-Engine, die Ihre Cloud-nativen Workflows ausführen kann, wenn Ihr Arbeitsbereich mit GCS als privater Datenspeicher eingerichtet ist. Die Dataproc-Engine bietet u. a. folgende Vorteile:
Dataproc eignet sich im Vergleich zur AMP Engine optimal für größere Datasets und komplexe Workflows.
Ihre Daten verlassen Ihre Google Cloud Project (GCP)-Umgebung nicht.
Sie können die Betriebskosten senken, indem Sie die Dataproc-Engine in Ihrer GCP-Umgebung ausführen.
Im Vergleich zur AMP Engine haben Sie mehr Kontrolle über die Dataproc-Engine-Konfiguration.
Wichtig
Ein:e Arbeitsbereich-Administrator muss die Dataproc-Engine in Ihrem Arbeitsbereich konfigurieren und aktivieren. Weitere Informationen finden Sie unter Dataproc-Engine – Einrichtungsleitfaden.
So verwenden Sie die Dataproc-Engine
Öffnen Sie Ihren Cloud-nativen Workflow.
Wählen Sie Dataproc aus der Dropdown-Liste der Engine neben Auftrag ausführen aus.
Anmerkung
Die Dropdown-Liste der Engine ist grau unterlegt, bis Sie ein Datenausgabe-Tool zu Ihrem Workflow hinzufügen und konfigurieren.
Wählen Sie Auftrag ausführen aus.