
PDF からテキスト
PDF ファイルからテキストを抽出するには、「PDF からテキスト抽出」ツールを使用します。PDF ファイルには、テキスト文字とテキストの画像が混合して含まれている場合があります。テキストの画像は、テキスト文字を抽出するのに光学文字認識 (OCR) が必要です。「PDF からテキスト抽出」ツールでは、PDF ファイルから直接テキスト文字を抽出できます。このツールは、OCR を適用して、テキストを含む画像からテキストを抽出することもできます。画像 (JPG、PNG、BMP ファイルなど) であるスキャン文書の場合は、「画像からテキスト抽出」ツールを使用します。
言語サポート
[テキストコンテンツのみを読み取る] を選択した場合、「PDF からテキスト抽出」ツールに言語制限はありません。
[テキストおよび画像コンテンツを読み取る] または [グラフィックとしてエンコードされたテキストのリスクスコア] を選択する場合、ツールではアラビア語、英語、フランス語、ドイツ語、イタリア語、日本語、ポルトガル語、簡体字中国語、スペイン語をサポートします。
このツールは Alteryx Intelligence Suite の一部です。Intelligence Suite を使用するには、Designer のライセンスとアドオンインストーラーが別途必要です。Designer をインストール後、Intelligence Suite をインストールし、無料トライアルを開始 します。
ツールコンポーネント
「PDF からテキスト抽出」ツールには、3 つのアンカーがあります (入力が 2 つ、出力が 1 つ):
- D 入力アンカー: (オプション)D 入力アンカーを使用して、PDF ファイルパスのリストまたは PDF ファイルを含むディレクトリのリストを接続します。ファイルパスまたはディレクトリのリストを接続する方法は複数あります。
- T 入力アンカー: (オプション) T アンカーを使用して、画像テンプレートツールから注釈を接続します。文字列とテーブルの注釈を使用してテキスト抽出の領域を指定します。画像の注釈を使用して、ダウンストリーム処理のために画像をトリミングします。
- 出力アンカー: 出力アンカーを使用して、抽出されたテキストをダウンストリームに渡します。
ツールの設定
- 「PDF からテキスト抽出」ツールをキャンバスに追加します。
- (オプション) D 入力アンカーを使用して、PDF ファイルパスのリストまたは PDF ファイルを含むディレクトリのリストを「PDF からテキスト抽出」ツールに渡します。
- (オプション) T 入力アンカーを使用して、画像テンプレートツールから注釈を渡します。
- D 入力アンカーに接続している場合は、ファイルパスを含む列を選択します。
- D 入力アンカーを接続していない場合は、PDF ファイルパスを入力します。代わりにファイルパスを編集してフォルダーを指定すると、ツールはそのフォルダーからすべての PDF を読み込むことができます。
- PDF ファイルに含まれる内容に基づいて、いずれかのテキスト抽出オプションを選択します。
- 出力オプションを選択します。
- ワークフローを 実行 します。
テキスト抽出オプション
テキストおよび画像コンテンツを読み取る
PDF ファイルには、テキスト文字とテキストの画像が混合して含まれている場合があります。テキストの画像は、テキスト文字を抽出するのに光学文字認識 (OCR) が必要です。テキストの画像を含むファイルの場合、[テキストおよび画像コンテンツを読み取る] を使用して、テキスト文字を直接読み込み、テキストの画像には OCR を適用します。OCR の追加により、ファイル内のすべてのテキストを完全にカバーできます。
テキストコンテンツのみを読み取る
PDF ファイルから直接、テキスト文字を読み取ります。テキスト文字のみの抽出は、OCR よりも最大 10 倍高速で一般的には正確です。
グラフィックとしてエンコードされたテキストのリスクスコアを使用して、ページの全テキストの抽出に OCR が必要かどうかに関するガイダンスを提供します。このオプションは、OCR よりも最大 2 倍高速です。ページグラフィックの出力画像を使用して、ツールの出力にページグラフィックの画像を含めます。
ページのリスクスコアが中または高の場合は、画像ツールを使用してページのグラフィックコンテンツを確認します。「PDF からテキスト抽出」ツールを使用するとグラフィック内の重要なテキストが欠落する場合は、[テキストおよび画像コンテンツを読み取る] オプションを使用してページを再度実行します。
出力オプション
- 文字列: 1 ページあたり 1 レコード。ページの全テキストを表す単一文字列。改行文字を含みます。
- 行: テキスト 1 行あたり 1 レコード。テキストの行を表す単一文字列。
- パイプ区切りテーブル: 1 ページあたり 1 レコード。ページの全テキストを表す、ページ区切りのテーブル。
- Alteryx テーブル形式: テキスト 1 行あたり 1 レコード。列は、テキスト内の水平方向の空間オーバーラップに基づいて再分割されたテキストを含みます。
複数の形式を選択した場合、出力には、異なる行にわたって各形式が含められます。
T 入力アンカー (オプション)
T 入力アンカーを使用すると、PDF からテキスト抽出ツールの出力が変化します。
- 追加の出力列により、各レコードのマークアップ領域が識別されます。
- 文字列およびテーブル領域は、選択したすべての出力フォーマットで出力されます。
- PDF からテキスト抽出ツールは、画像領域をトリミングし、画像 Blob ファイルとして出力します。画像 Blob ファイルは画像ツールで表示できます。