正規表現ツール
正規表現 (RegEx) ツールを使用して、データを解析、照合、または置換する式を作成します。
正規表現のサポート
では、正規表現がサポートされていますが、独自の式と式がデータに与える影響について責任があります。Designer
Boost の RegEx の詳細については、以下を参照してください。
参考になるかもしれない外部リソースをいくつか紹介します。 これらはどのような方法で Alteryx と提携していません:Perl の正規表現の構文. www.regexlib.com正規表現コーチ
ツールを設定する
- 解析する列: データの検索、解析、一致、または置換を行う列を選択します。
- 正規表現: プラス記号をクリックすると、解析、照合、または置換するデータを検索するために使用される式の作成が開始されます。
- 出力方法: 作成した式に一致するデータが検索によって検出された後に使用する出力方法を指定してください。メソッドを選択し、メソッドの関連する出力プロパティを構成します。
- Replace: このメソッドを使用して、検索する式を2番目の式で置き換えます。
- 置換テキスト: 元の正規表現に一致するテキストを置換するときに、ツールで使用する式を入力します。 ドロップダウンには、式の作成時に必要となる一般的な正規表現が用意されています。
- 不一致テキストを出力にコピー: デフォルトで選択されます。 一致しなかったすべてのテキストが出力に含まれます。
- Tokenize: 正規表現を使用して受信データを分割します。 このオプションは、 列分割ツールではなく、必要なものを照合して削除するのではなく、保持したいものに合わせます。 トークン全体に一致させたい場合、マークされたグループがある場合は、その部分だけが返されます。
- 9文字の文字列123456789 を3 つのフィールドにパースします。
- 9文字の文字列を3つのフィールドにパースし、2番目の文字だけを返します。
- 区切り記号Ctrl-a を使用してフィールドを解析する
- 空白のトークンがエントリを保持できるようにする: abc,, def
- ホームページからの HTML リンクの解析
- [列分割]: 指定された区切り文字の各インスタンスデータの1列を複数の列に分割します。
- 列数: 作成される列の数を設定します。
- 追加の列:余分な列に適用される動作を選択します。
- 警告付きで超過分を削除: 分割を超えたデータが削除され、情報の超過があったことを示す警告が表示されます。
- 警告なしで超過分を削除: 分割を超えたデータが削除され、情報の超過があったことを示す警告は表示されません。
- エラー : 分割分を超えてデータが拡張するとエラーが発生し、ワークフローの処理が停止します。
- 出力ルート名: 新しく生じた非標準の列の名前を入力します。 新しい列には、連続的に増加する整数を付加したルート名として名前が付けられます。
- [行分割]: 指定された区切り文字の各インスタンスデータの1列を複数の行に分割します。 どの行にどの値が存在しているか追跡不可能にならないように、レコードでキー列を使用します。
- Parse: 式を新しい列に分割し、新しい列の名前、種類、およびサイズを設定します。
- [出力列] テーブルに新しい列が作成されます。 表では:
- 名前を変更する列名をクリックします。
- ドロップダウンを使用して、新しいデータ型を選択します。
- 新しいサイズを入力します。
- 式が自動的に設定されます。
- 一致: 数値を含む列を追加します。式が一致した場合は1、それがない場合は0。
- 一致ステータスの列名: 追加された列の名前を指定します。
- 一致しない場合はエラー: 既定では選択されていません。 式と文字列が一致しない場合に、システムが処理を停止し、エラーを表示するかどうかを選択します。
大文字小文字を区別しない: 既定で選択されます。 検索では、大文字と小文字は区別されません。
次のユースケースは、Regex ツールの Tokenize メソッドに依存しています。
正規表現ですが...
正規表現は...
トークンのための正規表現 Ctrl-区切られた文字列は[^ \cA] +
正規表現の説明
[^...]括弧は、文字セット内の1文字に一致するものを指定します。 ^ でセットを開始すると、セットにない任意の文字に一致するように変更されます。
\cA これは、単に Ctrl-A の文字と一致します。
+ これは、前の1つ以上と一致することを意味します。
正規表現は([^,] *) (?:,|$)
正規表現の説明
(...)かっこ式のマークされたグループを作成します。 トークン化モードでは、入力フィールドの大部分を一致させても、マークされたサブセットのみを返すことができます。 こうすることで、区切り文字を返さないようにすることができます。 マークされた式が1しかないかもしれません。
[^,] セット内の任意の文字に一致するように ^ を変更すると、この場合には、設定を開始します。
* は、空のセットを可能にする前の0以上に一致します。 無限の数の一致があるので、正規表現エンジンが0文字の一致に適合しないからといってここで終わらせることはできません。そのため、何かの文字で一致を終了させる必要があります。
(?:....)これはマークされていないグループです。 我々は、または我々が使用するためにこれを必要とする |
|これは、どちらかの前または後のものに一致するが、両方ではないと言っている。 これは、常にマークの付いたグループ、はマークの付かないグループで使用する必要があります。
$ は文字列の末尾に一致します。 したがって (?:, | $ ) 、または文字列の末尾に一致します。
正規表現は <a .*?="">. *?</a>. これにより、大規模な HTML ドキュメントからすべてのリンクが一連のレコードに引き出されます。
正規表現の説明
これは、テキストのリテラル一致です。
.*?. は任意の文字で、*は 0 以上です。 [*] は、最短の一致に一致するように *を変更します。 これがないと、式は最初のリンクの先頭から最後の末尾までの1つのトークンを見つけることができます。
>これは、テキスト > のリテラルと一致します。
.*?正規表現全体を満たす文字の最短一致。
これは、テキストのリテラル一致です 。 これで一致は終わります。