Tool Icon

キー / 値ペア (KVP) 抽出

バージョン:
2022.1
Last modified: September 01, 2022

ラボラトリーツール

これはラボラトリーツールであり、実際の運用を目的としたツールではありません。このツールは、既知の問題を記録していたり、機能的に完全でなかったり、変更されたりする可能性があります。

キー / 値ペアは、2 つのデータ要素を関連付けたものです。キーはデータセットを定義する固有識別子 (個人、場所、モノなど) であり、値は識別されたデータです。キー / 値のペアの例を次に示します。

  • 人物: John
  • 場所: 銀行
  • モノ: 小切手

キー / 値ペア (KVP) 抽出ツールは、ドキュメント内のキー / 値ペアの構造を識別します。このツールは、Google Tesseract ライブラリとファジーマッチを利用して、キー / 値ペアを検出します。キー / 値ペア (KVP) 抽出ツールは、表形式データ抽出を意図したものではありません。表形式データの抽出には、画像テンプレートツール を使用してください。

ノイズの多いドキュメントをキー / 値ペア (KVP) 抽出ツールに渡す場合は、結果が悪くならないように、画像処理ツール の OCR 最適化機能で画像を前処理してみてください。OCR 最適化機能は、白以外の背景、透かし、その他のノイズを含むドキュメントをクリーンアップします。

言語サポート

キー / 値ペア (KVP) 抽出ツールは、英語、中国語 (簡体字)、フランス語、ドイツ語、イタリア語、日本語、ポルトガル語、スペイン語を入力としてサポートします。キーと値は同じ言語にすることを推奨します。

ツールコンポーネント

キー / 値ペア (KVP) 抽出ツールには、次の 3 つのアンカーがあります。

  • D アンカー: 分析するテキスト画像を渡す場合は、D アンカーを使用します。
  • K アンカー: 識別するキーを渡す場合は、K アンカーを使用します。
  • 出力アンカー: キー / 値ペアをダウンストリームに渡す場合は、出力アンカーを使用します。

ツールの設定

  1. キー / 値ペア (KVP) 抽出ツールをキャンバスに追加します。
  2. アンカーを使用して、ワークフローで使用する画像データとキーに、キー / 値ペア (KVP) 抽出ツールを接続します。
  3. 画像 データを含む列を選択します。
  4. 画像データ内のテキストの 言語 を選択します。
  5. キー を含む列を選択します。ヒント: テキスト入力ツール を使用して、ワークフローにキーを入力できます。
  6. ワークフローを 実行 します。

出力

キー / 値ペア (KVP) 抽出ツールは、識別した各キーに由来する名前を付けて列として出力するだけでなく、受け取った列も出力します。各キーの列のセルに 1 つずつ、関連付けられた値を格納します。1 つのキーに対して複数の値がある場合、値はスペースで区切られます (例: value1 value2 value3)。1 つのキーが複数の箇所に出現する場合、インスタンスごとに列が作成されます (例: key1、key2、key3)。

FAQ

選択したキーは、ドキュメント内で完全に一致していなくてはなりませんか?

最良の結果を得るために、ドキュメントの中では選択したキーができるだけ一致していることをお勧めします。なお、キー / 値ペア (KVP) 抽出ツールは、キーの大文字 / 小文字が違っていたり、キー / 値ペアの区切り記号が違っていたりしても (たとえば、[Key:value] と [key, value]) キーと値を検出します。

ドキュメントの背景に色が付いていても問題ありませんか?

このツールは、通常、背景が白で文字が黒い画像に使用します。ただし、処理するドキュメントの背景が白以外でも、画像処理ツール の OCR 最適化機能で修正することは可能です。

画像処理ツールのグレースケールオプションを最初に使用すると、キー / 値ペアの抽出結果がよくなりますか?

まず、画像処理ツール の OCR 最適化機能を使用することをお勧めします。このツールで、自動的に背景をグレースケールに変換することができるため、手動でグレースケールを調整する必要がなくなります。

画像テンプレートツールとキー / 値ペア (KVP) 抽出ツールを組み合わせて使用できますか?

キー / 値ペア (KVP) 抽出ツールを画像テンプレートツールに接続することはできません。キー / 値ペア (KVP) 抽出ツールは、ドキュメント内のどこにあっても指定キーのインスタンスをすべて識別し、対応する値を返します。したがって、境界ボックスや注釈を作成する必要がありません。

結果を確認すると「このキーはサポートされていません: なし」というエラーが発生していました。どうすればよいですか?

キーのリストに空の行があればその行を削除してから、ワークフローを再実行してください。

キー / 値ペア (KVP) 抽出ツールは、手書きの文字も認識しますか? 手書きで書いた用紙に使用できますか?

キー / 値ペア (KVP) 抽出ツールは、手書き文字の処理には向いていません。

このツールで認識できるキー / 値ペアにはどのようなものがありますか? キー / 値ペアの形式をどのようにすればよいですか?

キー / 値ペアが次のような構造になっていることが理想的です。

構造

<キー>: <値>

例 1

Company: Alteryx

例 2

Name: Libby

表のセルのような、値を区切る境界がない場合には、複数行にまたがる値を持つキーとして認識されます。

構造

<キー>: <値の行 1>

<値の行 2>

<値の行 3>

例 1

Shipping Address: ABC Company

123 Main Street

Some City, New York 12345

例 2

Billing Address: XYZ Vendor

456 Pleasant Street

このページは役に立ちましたか?

Alteryx 製品のご利用中に何か問題がございましたら、Alteryx コミュニティにアクセスするか、サポートにお問い合わせください。このフォームを送信できない場合E メールでお送りください。