
キー / 値ペア (KVP) 抽出
ラボラトリーツール
これはラボラトリーツールであり、実際の運用を目的としたツールではありません。このツールは、既知の問題を記録していたり、機能的に完全でなかったり、変更されたりする可能性があります。
キー / 値ペアは、2 つのデータ要素を関連付けたものです。キーはデータセットを定義する固有識別子 (個人、場所、モノなど) であり、値は識別されたデータです。キー / 値のペアの例を次に示します。
- 人物: John
- 場所: 銀行
- モノ: 小切手
キー / 値ペア (KVP) 抽出ツールは、ドキュメント内のキー / 値ペアの構造を識別します。このツールは、Google Tesseract ライブラリとファジーマッチを利用して、キー / 値ペアを検出します。キー / 値ペア (KVP) 抽出ツールは、表形式データ抽出を意図したものではありません。表形式データの抽出には、画像テンプレートツール を使用してください。
ノイズの多いドキュメントをキー / 値ペア (KVP) 抽出ツールに渡す場合は、結果が悪くならないように、画像処理ツール の OCR 最適化機能で画像を前処理してみてください。OCR 最適化機能は、白以外の背景、透かし、その他のノイズを含むドキュメントをクリーンアップします。
言語サポート
キー / 値ペア (KVP) 抽出ツールは、英語、中国語 (簡体字)、フランス語、ドイツ語、イタリア語、日本語、ポルトガル語、スペイン語を入力としてサポートします。キーと値は同じ言語にすることを推奨します。
ツールコンポーネント
キー / 値ペア (KVP) 抽出ツールには、次の 3 つのアンカーがあります。
- D アンカー: 分析するテキスト画像を渡す場合は、D アンカーを使用します。
- K アンカー: 識別するキーを渡す場合は、K アンカーを使用します。
- 出力アンカー: キー / 値ペアをダウンストリームに渡す場合は、出力アンカーを使用します。
ツールの設定
- キー / 値ペア (KVP) 抽出ツールをキャンバスに追加します。
- アンカーを使用して、ワークフローで使用する画像データとキーに、キー / 値ペア (KVP) 抽出ツールを接続します。
- 画像 データを含む列を選択します。
- 画像データ内のテキストの 言語 を選択します。
- キー を含む列を選択します。ヒント: テキスト入力ツール を使用して、ワークフローにキーを入力できます。
- ワークフローを 実行 します。
出力
キー / 値ペア (KVP) 抽出ツールは、識別した各キーに由来する名前を付けて列として出力するだけでなく、受け取った列も出力します。各キーの列のセルに 1 つずつ、関連付けられた値を格納します。1 つのキーに対して複数の値がある場合、値はスペースで区切られます (例: value1 value2 value3)。1 つのキーが複数の箇所に出現する場合、インスタンスごとに列が作成されます (例: key1、key2、key3)。
FAQ
最良の結果を得るために、ドキュメントの中では選択したキーができるだけ一致していることをお勧めします。なお、キー / 値ペア (KVP) 抽出ツールは、キーの大文字 / 小文字が違っていたり、キー / 値ペアの区切り記号が違っていたりしても (たとえば、[Key:value] と [key, value]) キーと値を検出します。
このツールは、通常、背景が白で文字が黒い画像に使用します。ただし、処理するドキュメントの背景が白以外でも、画像処理ツール の OCR 最適化機能で修正することは可能です。
まず、画像処理ツール の OCR 最適化機能を使用することをお勧めします。このツールで、自動的に背景をグレースケールに変換することができるため、手動でグレースケールを調整する必要がなくなります。
キー / 値ペア (KVP) 抽出ツールを画像テンプレートツールに接続することはできません。キー / 値ペア (KVP) 抽出ツールは、ドキュメント内のどこにあっても指定キーのインスタンスをすべて識別し、対応する値を返します。したがって、境界ボックスや注釈を作成する必要がありません。
キーのリストに空の行があればその行を削除してから、ワークフローを再実行してください。
キー / 値ペア (KVP) 抽出ツールは、手書き文字の処理には向いていません。
キー / 値ペアが次のような構造になっていることが理想的です。
構造
<キー>: <値>
例 1
Company: Alteryx
例 2
Name: Libby
表のセルのような、値を区切る境界がない場合には、複数行にまたがる値を持つキーとして認識されます。
構造
<キー>: <値の行 1>
<値の行 2>
<値の行 3>
例 1
Shipping Address: ABC Company
123 Main Street
Some City, New York 12345
例 2
Billing Address: XYZ Vendor
456 Pleasant Street