Skip to main content

RegEx-Tool

Mit dem RegEx-Tool können Sie die Syntax regulärer Ausdrücke verwenden, um Daten zu parsen, abzugleichen oder zu ersetzen.

Tipp

Für dieses Tool gibt es ein One-Tool-Beispiel. Unter Zugriff auf Beispiel-Workflows erfahren Sie, wie Sie dieses und viele weitere Beispiele direkt in Designer Cloud aufrufen können.

RegEx-Unterstützung

Reguläre Ausdrücke werden in Designer Cloud zwar unterstützt, aber der Benutzer ist für seine eigenen Ausdrücke und deren Auswirkungen auf seine Daten verantwortlich.

Weitere Ressourcen zum Schreiben von regulären Ausdrücken finden Sie unter https://regex101.com/, einer nicht mit Alteryx verbundenen Seite, oder im RegEx Coach, einer ebenfalls nicht mit Alteryx verbundenen grafischen Anwendung für Windows, mit der Sie interaktiv mit (Perl-kompatiblen) regulären Ausdrücken experimentieren können.

Weitere Informationen zu Boost RegEx finden Sie an unter:

Tool-Konfiguration

  1. Wählen Sie Zu parsende Spalte aus.

  2. Ihren Regulären Ausdruck ein. Verwenden Sie die Schaltfläche mit dem Pluszeichen, um gängige reguläre Ausdrücke anzuzeigen. Weitere Informationen finden Sie auf der Website Perl Regular Expression Syntax.

    • Achten Sie auf die Groß- und Kleinschreibung, damit bei der Suche zwischen Groß- und Kleinbuchstaben unterschieden wird.

  3. Wählen Sie die beim Parsen zu verwendende Ausgabemethode aus und konfigurieren Sie dann die zugehörigen Eigenschaften.

    • Übereinstimmung: Hängen Sie eine Spalte mit einer Zahl an: 1, wenn der Ausdruck übereinstimmt, und 0, wenn er nicht übereinstimmt.

      • Spaltenname für Übereinstimmungsstatus: Geben Sie einen Namen für die angehängte Spalte an.

    • Parse: Teilen Sie den Ausdruck in neue Spalten auf und legen Sie Name und Typ der neuen Spalten fest. In der Tabelle Spalten ausgeben wird eine neue Spaltentabelle mit folgenden Parametern erstellt:

      • Name: Wählen Sie den Spaltennamen aus, um einen neuen Namen einzugeben.

      • Typ: Wählen Sie über das Auswahlmenü den neuen Datentyp aus.

      • Ausdruck: Wird automatisch ausgefüllt.

    • Ersetzen: Ersetzen Sie den gesuchten Ausdruck durch einen zweiten Ausdruck.

      • Ersetzen durch: Geben Sie einen Ausdruck ein, der den ursprünglichen regulären Ausdruck ersetzen soll, indem Sie die markierte Gruppe identifizieren, durch die der Ausdruck ersetzt werden soll. Verwenden Sie die Schaltfläche mit dem Pluszeichen, um gängige reguläre Ausdrücke anzuzeigen.

      • Aktivieren Sie Nicht abgeglichenen Text in Ausgabe kopieren, um den nicht abgeglichenen Text in die Ausgabe zu kopieren.

    • Tokenize: Teilen Sie eingehende Daten mithilfe eines regulären Ausdrucks auf. Diese Option funktioniert ähnlich wie das Text-in-Spalten-aufteilen-Tool, außer dass Sie nicht abgleichen und entfernen, was Sie nicht behalten möchten, sondern abgleichen, was Sie behalten möchten. Suchen Sie nach einer Übereinstimmung mit dem gesamten Token, und wenn Sie eine markierte Gruppe haben, wird nur dieser Teil zurückgegeben. Siehe „Beispiele für Tokenize-Methode“ unten.

      • In Spalten aufteilen: Teilt eine einzelne Datenspalte bei jedem Vorkommen des festgelegten Trennzeichens in mehrere Spalten auf.

        • Anzahl der Ausgabespalten: Legen Sie fest, wie viele Spalten erstellt werden.

        • Ausgabespaltenüberschrift: Geben Sie den Namen ein, auf den sich die neu erstellten Spalten stützen sollen. Die neuen Spalten werden nach dem Stammnamen benannt, wobei eine aufsteigende Ganzzahl angefügt wird.

        • Wenn zusätzliche Spalten bei der Ausgabe vorliegen: Wählen Sie das Verhalten aus, das auf zusätzliche Spalten angewendet wird.

          • Nicht einbeziehen: Daten, die über das Trennzeichen hinausreichen, werden gelöscht und es wird keine Warnung erzeugt.

          • Nicht einbeziehen und Warnung anzeigen: Daten, die über das Trennzeichen hinausreichen, werden gelöscht und es wird eine Warnung erzeugt, die anzeigt, dass es überschüssige Informationen gab.

          • Fehler (Datenverarbeitung stoppen): Daten, die über das Trennzeichen hinausreichen, verursachen einen Fehler und der Workflow stoppt die Verarbeitung.

      • In Zeilen aufteilen: Teilt eine einzelne Datenspalte bei jedem Vorkommen des festgelegten Trennzeichens in mehrere Zeilen auf. Verwenden Sie eine Schlüsselspalte in Ihrem Datensatz, damit Sie immer wissen, welcher Wert aus welcher Zeile stammt.

Beispiele für Tokenize-Methode

Diese Anwendungsfälle basieren auf der Tokenize-Methode des RegEx-Tools.

  • Parsen Sie eine 9-stellige Zeichenfolge 123456789 in drei Felder: Der reguläre Ausdruck lautet ....

  • Parsen Sie eine 9-stellige Zeichenfolge in drei Felder, wobei nur das zweite Zeichen ausgegeben wird. Der reguläre Ausdruck lautet .(.)..

  • Parsen Sie ein Feld mit dem Trennzeichen Strg-A. Der reguläre Ausdruck für die Tokenisierung einer durch Strg-A begrenzten Zeichenfolge lautet [^\cA]+.

    • [^...] Die Klammern legen eine Übereinstimmung mit einem einzigen Zeichen in einem Zeichenset fest. Indem das Set mit ^ beginnt, kommt es zu einer Übereinstimmung mit jedem nicht im Set enthaltenen Zeichen.

    • \cA Dies ist einfach die Übereinstimmung mit dem Zeichen Ctrl-A.

    • + Dies bedeutet, dass eine Übereinstimmung mit einer oder mehr der vorherigen Festlegungen vorliegen muss.

  • Lassen Sie leere Token zu, um Einträge beizubehalten: abc, ,def. Der reguläre Ausdruck lautet ([^,]*) (?:,|$).

    • (...) Klammern erstellen eine markierte Gruppe des Ausdrucks. Mit dem Tokenize-Modus können Sie eine Übereinstimmung mit einem größeren Teil des Eingabefelds herbeiführen, aber nur eine Teilmenge zurückgeben, die markiert ist. Dadurch vermeiden Sie, dass das Trennzeichen zurückgegeben wird. Sie dürfen nur einen markierten Ausdruck haben.

    • [^,] Beginnt der Satz mit ^, werden alle Zeichen abgeglichen, die nicht im Satz enthalten sind. In diesem Fall ein ,.

    • * Gleichen Sie 0 oder mehr der vorherigen Festlegungen ab. Das ermöglicht einen leeren Satz. Sie können hier nicht aufhören, weil die RegEx-Engine eine Übereinstimmung von 0 Zeichen nicht annimmt, da es sonst eine unendliche Anzahl an Übereinstimmungen gibt. Wir müssen die Übereinstimmung daher anders abschließen.

    • (?:....) ist eine unmarkierte Gruppe. Wir benötigen diese für das oder , das wir mit | angeben.

    • | stimmt mit dem überein, was davor oder danach kommt, aber nicht mit beidem. Das muss fast immer mit einer markierten oder einer unmarkierten Gruppe verwendet werden.

    • $ liefert eine Übereinstimmung mit dem Ende der Zeichenfolge. Beispielsweise liefert (?:,|$) eine Übereinstimmung bis zu einem , oder bis zum Ende der Zeichenfolge.

  • Parsen Sie HTML-Links von einer Startseite. Der reguläre Ausdruck lautet <a .*?>.*?</a>. Damit wird jeder Link aus einem großen HTML-Dokument in eine Reihe von Zeilen ausgelesen.

    • <a ist eine buchstäbliche Übereinstimmung mit dem Text „<a“.

    • .*?. ist ein beliebiges Zeichen, * ist 0 oder mehr. Das ? modifiziert den *, um ihn mit der kürzest möglichen Übereinstimmung abzugleichen. Ohne diese Angabe könnte der Ausdruck ein einzelnes Token vom Anfang des ersten bis zum Ende des letzten Links finden.

    • > Dies ist eine buchstäbliche Übereinstimmung mit dem Text „>“.

    • .*? Die kürzeste mögliche Übereinstimmung mit beliebigen Zeichen, die den gesamten Ausdruck erfüllt.

    • </a> Dies ist eine buchstäbliche Übereinstimmung mit dem Text „</a>“. Das beendet die Übereinstimmung.