Skip to main content

Green hexagon containing a left parenthesis, period, asterisk and right parenthesis. RegEx-Tool

One-Tool-Beispiel

Für das RegEx-Tool gibt es ein One-Tool-Beispiel. Unter Beispiel-Workflows erfahren Sie, wie Sie dieses und viele weitere Beispiele direkt in Alteryx Designer aufrufen können.

Mit RegEx können Sie die Syntax regulärer Ausdrücke verwenden, um Daten zu parsen, abzugleichen oder zu ersetzen.

RegEx-Unterstützung

Reguläre Ausdrücke werden in Designer zwar unterstützt, aber der Benutzer ist für seine eigenen Ausdrücke und deren Auswirkungen auf seine Daten verantwortlich.

Weitere Ressourcen zum Schreiben regulärer Ausdrücke finden Sie unter https://regex101.com/ , einer nicht mit Alteryx verbundenen Seite, oder im RegEx Coach , einer ebenfalls nicht mit Alteryx verbundenen grafischen Anwendung für Windows, mit der Sie interaktiv mit (Perl-kompatiblen) regulären Ausdrücken experimentieren können.

Weitere Informationen zu Boost RegEx finden Sie unter:

Tool-Konfiguration

  1. Wählen Sie die Zu parsende Spalte aus.

  2. Geben Sie unter Zu konvertierendes Format  …

    • Ihren Regulären Ausdruck ein. Verwenden Sie die +-Taste, um auf gängige reguläre Ausdrücke zuzugreifen, die Sie möglicherweise beim Erstellen Ihres Ausdrucks benötigen. Weitere Informationen finden Sie auf der Website Syntax für reguläre Perl-Ausdrücke .

    • Groß-/Kleinschreibung wird nicht beachtet : Ist standardmäßig ausgewählt. Bei der Suche wird nicht zwischen Groß- und Kleinbuchstaben unterschieden.

  3. Wählen Sie unter Ausgabe die Ausgabemethode aus, die beim Parsen verwendet werden soll. Konfigurieren Sie dann die zugehörigen Eigenschaften .

    • Ersetzen : Ersetzen Sie den gesuchten Ausdruck durch einen zweiten Ausdruck.

      • Ersatztext : Geben Sie einen Ausdruck ein, der den ursprünglichen regulären Ausdruck ersetzen soll, indem Sie die markierte Gruppe identifizieren, mit der der Ausdruck ersetzt werden soll. Verwenden Sie die +-Taste, um auf gängige reguläre Ausdrücke zuzugreifen, die Sie möglicherweise beim Erstellen Ihres Ausdrucks benötigen.

      • Nicht abgeglichenen Text in Ausgabe kopieren

    • Tokenize : Teilen Sie eingehende Daten mithilfe eines regulären Ausdrucks auf. Diese Option funktioniert ähnlich wie das Text-in-Spalten-aufteilen-Tool , außer dass Sie nicht abgleichen und entfernen, was Sie nicht wollen, sondern abgleichen, was Sie behalten wollen. Suchen Sie nach einer Übereinstimmung mit dem gesamten Token, und wenn Sie eine markierte Gruppe haben, wird nur dieser Teil zurückgegeben. Siehe  Beispiele für Tokenize-Methoden unten.

      • In Spalten aufteilen : Teilt eine einzelne Datenspalte bei jeder Instanz des festgelegten Trennzeichens in mehrere Spalten auf.

        • Spaltenanzahl : Legen Sie fest, wie viele Spalten erstellt werden.

        • Zusätzliche Spalten : Wählen Sie das Verhalten aus, das auf zusätzliche Spalten angewendet wird.

          • Extradaten mit Warnung verwerfen : Daten, die über das Trennzeichen hinaus reichen, werden gelöscht und es wird eine Warnung erzeugt, die anzeigt, dass es überschüssige Informationen gab.

          • Extradaten ohne Warnung verwerfen : Daten, die über das Trennzeichen hinaus reichen, werden gelöscht und es wird keine Warnung erzeugt.

          • Fehler : Daten, die sich über die Aufteilung hinaus erstrecken, werden gelöscht, verursachen einen Fehler und der Workflow stoppt die Verarbeitung.

        • Stammnamen ausgeben : Geben Sie den Namen ein, auf den sich die neu erstellten Spalten stützen sollen. Die neuen Spalten werden nach dem Stammnamen benannt, wobei eine aufsteigende Ganzzahl angefügt wird.

      • In Zeilen aufteilen : Teilt eine einzelne Datenspalte bei jeder Instanz des festgelegten Trennzeichens in mehrere Zeilen auf. Verwenden Sie eine Schlüsselspalte in Ihrem Datensatz, damit Sie immer wissen, welcher Wert aus welcher Zeile stammt.

    • Parse : Teilen Sie den Ausdruck in neue Spalten auf, und legen Sie Namen , Typ und Größe der neuen Spalten fest. In der Tabelle Spalten ausgeben  wird eine neue Spaltentabelle mit folgenden Feldern erstellt:

      • Name : Wählen Sie den Spaltennamen, um einen neuen Namen einzugeben.

      • Typ : Wählen Sie über die Dropdown-Liste den neuen Datentyp aus.

      • Größe : Wählen Sie die Datengröße, um eine neue Größe einzugeben.

      • Ausdruck : Wird automatisch ausgefüllt.

    • Übereinstimmung : Hängen Sie eine Spalte mit einer Zahl an: 1, wenn der Ausdruck übereinstimmt und 0, wenn er nicht übereinstimmt.

      • Spaltenname für Übereinstimmungsstatus : Geben Sie einen Namen für die angehängte Spalte an.

      • Fehler, falls keine Übereinstimmung vorliegt : Wählen Sie diese Option aus, um eine Fehlermeldung zu generieren, wenn Ausdruck und Zeichenfolge nicht übereinstimmen und somit die Workflow-Verarbeitung zu beenden.

Beispiele für Tokenize-Methode

Diese Anwendungsfälle basieren auf der Tokenize-Methode des RegEx-Tools.

  • Parsen Sie eine 9-stellige Zeichenfolge 123456789 in 3 Felder: Der reguläre Ausdruck lautet ... .

  • Parsen Sie eine 9-stellige Zeichenfolge in dreiFelder, wobei nur das zweite Zeichen ausgegeben wird. Der reguläre Ausdruck lautet .(.). .

  • Parsen Sie ein Feld mit dem Trennzeichen Strg-A . Der reguläre Ausdruck für die Tokenisierung einer durch Ctrl-A begrenzten Zeichenfolge lautet [^\cA]+ .

    • [^...] Die Klammern legen eine Übereinstimmung mit einem einzigen Zeichen in einem Zeichenset fest. Indem das Set mit ^ beginnt, kommt es zu einer Übereinstimmung mit jedem nicht im Set enthaltenen Zeichen.

    • \cA Dies ist einfach die Übereinstimmung mit dem Zeichen „Ctrl-A“.

    • + Dies bedeutet, dass eine Übereinstimmung mit 1 oder mehr der vorherigen Festlegungen vorliegen muss.

  • Lassen Sie leere Token zu, um Einträge zu erhalten: abc, ,def . Der reguläre Ausdruck lautet ([^,]*) (?:,|$) .

    • (...) Klammern erstellen eine markierte Gruppe des Ausdrucks. Im Tokenize-Modus können Sie einen größeren Teil des Eingabefelds abgleichen, jedoch nur eine Teilmenge zurückgeben, die markiert wurde. Dadurch vermeiden Sie, dass das Trennzeichen zurückgegeben wird. Sie dürfen nur einen markierten Ausdruck haben.

    • [^,] Beginnt der Satz mit ^ , werden alle Zeichen abgeglichen, die nicht im Satz enthalten sind. In diesem Fall ein , .

    • * Gleichen Sie 0 oder mehr der vorherigen Festlegungen ab. Das ermöglicht einen leeren Satz. Sie können hier nicht aufhören, weil die Regex-Engine eine Übereinstimmung von 0 Zeichen nicht annimmt, da es sonst eine unendliche Anzahl an Übereinstimmungen gibt. Wir müssen die Übereinstimmung daher mit etwas abschließen.

    • (?:....) Dies ist eine unmarkierte Gruppe. Wir benötigen diese für das  oder , das wir mit  | angeben.

    • | Dies besagt, dass eine Übereinstimmung entweder mit dem, was davor steht, oder mit dem, was danach steht, aber nicht mit beidem vorliegen muss. Dies muss mit einer markierten oder einer unmarkierten Gruppe fast immer verwendet werden.

    • $ Liefert eine Übereinstimmung mit dem Ende der Zeichenfolge. Daher liefert (?:,|$) eine Übereinstimmung bis zu einem , oder bis zum Ende der Zeichenfolge.

  • Parsen Sie HTML-Links von einer Startseite. Der reguläre Ausdruck lautet <a .*?>.*?</a> . Damit wird jeder Link aus einem großen HTML-Dokument in eine Reihe von Datensätzen ausgelesen.

    • <a Dies ist eine buchstäbliche Übereinstimmung mit dem Text <a.

    • .*?. ist ein beliebiges Zeichen, * ist 0 oder mehr. Das ? modifiziert den * , um ihn mit der kürzest möglichen Übereinstimmung abzugleichen. Ohne diese Angabe könnte der Ausdruck ein einzelnes Token vom Anfang des ersten bis zum Ende des letzten Links finden.

    • > Dies ist eine buchstäbliche Übereinstimmung mit dem Text > .

    • .*? Die kürzeste mögliche Übereinstimmung mit beliebigen Zeichen, die den gesamten Ausdruck erfüllt.

    • </a> Dies ist eine buchstäbliche Übereinstimmung mit dem Text </a> . Damit endet die Übereinstimmung.