正規表現ツール
[正規表現]ツールは、正規表現構文を使用してデータの解析、一致、置換を行います。
正規表現のサポート
正規表現はサポートされていますがDesigner、ユーザーは独自の式を担当し、式がデータにどのように影響するかを管理します。
正規表現の記述方法に関するより多くのリソースについては、www.regexlib.com、Alteryx のあるサイト外部、またはRegEx コーチ、(Perl 互換の) 正規の実験に使用できる Windows 用の外部グラフィカルアプリケーションを参照してください。式を対話的に。
ブースト RegEx の詳細については、次を参照してください。
ツールを設定する
- 解析するフィールドを選択します。
- 正規表現を入力します。 ドロップダウンには、式の作成時に必要となる一般的な正規表現が用意されています。 詳細については、ウェブサイト上で見つけることができますPerl の正規表現の構文.
- 解析時に使用する出力方法を選択します。 次に、関連するプロパティを構成します。
- 置換: 検索した式を2番目の式で置き換えます。
- 置換テキスト: 式を置換するマークされたグループを識別して、元の正規表現を置き換える式を入力します。 ドロップダウンには、式の作成時に必要となる一般的な正規表現が用意されています。
- 一致しないテキストを出力にコピーする
- Tokenize: 正規表現を使用して受信データを分割します。 このオプションは、 列分割ツールではなく、必要なものを照合して削除するのではなく、保持したいものに合わせます。 トークン全体に一致させたい場合、マークされたグループがある場合は、その部分だけが返されます。
- 9文字の文字列123456789 を3 つのフィールドにパースします。
- 9文字の文字列を3つのフィールドにパースし、2番目の文字だけを返します。
- 区切り記号Ctrl-a を使用してフィールドを解析する
- 空白のトークンがエントリを保持できるようにする: abc,, def
- ホームページからの HTML リンクの解析
- 列に分割する : 指定された区切り文字の各インスタンスにある、1列のデータを複数の列にスプリットします。。
- 列の数: 作成される列の数を設定します。
- 追加の列: 追加の列に適用される動作を選択します。
- 超過分のドロップと警告 : 分割を超えたデータがドロップし、情報の超過があったことを示す警告が表示されます。
- 警告を表示せずに超過分をドロップ: 分割を超えたデータがドロップし、情報の超過があったことを示す警告は表示されません。
- エラー : 分割分を超えてデータが拡張するとエラーが発生し、ワークフローの処理が停止します。
- 出力ルート名: 新しく生じた非標準の列の名前を入力します。 新しい列には、整数の連続増加に伴って付加されたルート名として名前が付けられます。
- 行に分割:指定された区切り文字の各インスタンスにある、1列のデータを複数の行にスプリットします。 どの行にどの値が由来しているかを追跡不可能にならないように、レコードのキー列を使用します。
- Parse: 式を新しい列に分割し、新しい列の名前、種類、およびサイズを設定します。
- [出力フィールド] テーブルに新しい列が作成されます。 表では:
- 名前を変更する列名をクリックします。
- ドロップダウンを使用して、新しいデータ型を選択します。
- 新しいサイズを入力します。
- 式が自動的に設定されます。
- 一致: 数値を含む列を追加します。式が一致した場合は1、それがない場合は0。
- 一致状態フィールド名: 追加された列の名前を指定します。
- 一致しない場合はエラー: 式と文字列が一致しない場合にエラーをスローするように選択すると、ワークフロー処理が終了します。
大文字小文字を区別しない: 既定で選択されます。 検索では、大文字と小文字は区別されません。
次のユースケースは、Regex ツールの Tokenize メソッドに依存しています。
正規表現ですが...
正規表現は...
トークンのための正規表現 Ctrl-区切られた文字列は[^ \cA] +
正規表現の説明
[^...]括弧は、文字セット内の1文字に一致するものを指定します。 ^ でセットを開始すると、セットにない任意の文字に一致するように変更されます。
\cA これは、単に Ctrl-A の文字と一致します。
+ これは、前の1つ以上と一致することを意味します。
正規表現は([^,] *) (?:,|$)
正規表現の説明
(...)かっこ式のマークされたグループを作成します。 トークン化モードでは、入力フィールドの大部分を一致させても、マークされたサブセットのみを返すことができます。 こうすることで、区切り文字を返さないようにすることができます。 マークされた式が1しかないかもしれません。
[^,] セット内の任意の文字に一致するように ^ を変更すると、この場合には、設定を開始します。
* は、空のセットを可能にする前の0以上に一致します。 無限の数の一致があるので、正規表現エンジンが0文字の一致に適合しないからといってここで終わらせることはできません。そのため、何かの文字で一致を終了させる必要があります。
(?:....)これはマークされていないグループです。 我々は、または我々が使用するためにこれを必要とする |
|これは、どちらかの前または後のものに一致するが、両方ではないと言っている。 これは、常にマークの付いたグループ、はマークの付かないグループで使用する必要があります。
$ は文字列の末尾に一致します。 したがって (?:, | $ ) 、または文字列の末尾に一致します。
正規表現は <a .*?="">. *?</a>. これにより、大規模な HTML ドキュメントからすべてのリンクが一連のレコードに引き出されます。
正規表現の説明
これは、テキストのリテラル一致です。
.*?. は任意の文字で、*は 0 以上です。 [*] は、最短の一致に一致するように *を変更します。 これがないと、式は最初のリンクの先頭から最後の末尾までの1つのトークンを見つけることができます。
>これは、テキスト > のリテラルと一致します。
.*?正規表現全体を満たす文字の最短一致。
これは、テキストのリテラル一致です 。 これで一致は終わります。