PDFからテキスト

PDFファイルからテキストを抽出するには、「PDFからテキスト抽出」ツールを使用します。PDFファイルには、テキスト文字とテキストの画像が混合して含まれている場合があります。テキストの画像は、テキスト文字を抽出するのに光学文字認識(OCR)が必要です。「PDFからテキスト抽出」ツールでは、PDFファイルから直接テキスト文字を抽出できます。このツールは、OCRを適用して、テキストを含む画像からテキストを抽出することもできます。画像 (JPG、PNG、BMPファイルなど) であるスキャン文書の場合は、「画像からテキスト抽出」ツールを使用します。

Alteryx Intelligence Suiteが必要です

このツールは Alteryx Intelligence Suite の一部です。Intelligence Suite を使用するには、Designerに加え、別途のライセンスとアドオンインストーラーが必要です。Designerをインストール後、Intelligence Suiteをインストールし、無料トライアルを開始します。

言語サポート

[テキストコンテンツのみを読み取る] を選択した場合、「PDF からテキスト抽出」ツールに言語制限はありません。

[テキストおよび画像コンテンツを読み取る] または [グラフィックとしてエンコードされたテキストのリスクスコア] を選択する場合、ツールではアラビア語、英語、フランス語、ドイツ語、イタリア語、日本語、ポルトガル語、簡体字中国語、スペイン語をサポートします。

ツールコンポーネント

「PDFからテキスト抽出」ツールには、3 つのアンカーがあります (入力が2つ、出力が1つ):

D 入力アンカー: (オプション) D 入力アンカーを使用して、PDFファイルパスのリストまたは PDFファイルを含むディレクトリのリストを接続します。ファイルパスまたはディレクトリのリストを接続する方法は複数あります。
- データ入力ツールを使用して、CSV、XLSX、または TXTファイルからファイルパスまたはディレクトリのリストを追加します。
- テキスト入力ツールでファイルパスまたはディレクトリを手動で入力します。
- ディレクトリツールを使用して、フォルダー内のファイルパスのリストを生成します。
T 入力アンカー: (オプション) T アンカーを使用して、画像テンプレートツールからアノテーションを接続します。文字列とテーブルの注釈を使用してテキスト抽出の領域を指定します。画像の注釈を使用して、ダウンストリーム処理のために画像をトリミングします。
出力アンカー: 出力アンカーを使用して、抽出されたテキストを下流に渡します。

ツールの設定

「PDFからテキスト抽出」ツールをキャンバスに追加します。
(オプション) D 入力アンカーを使用して、PDFファイルパスのリストまたはPDFファイルを含むディレクトリのリストを「PDFからテキスト抽出」ツールに渡します。
(オプション) T 入力アンカーを使用して、画像テンプレートツールから注釈を渡します。画像テンプレートツールに接続していて、すべてのページのレイアウトが同じ場合は、 [すべてのページに画像テンプレートの最初のページのアノテーションを適用] を選択します。
D 入力アンカーに接続している場合は、ファイルパスを含む列を選択します。
D 入力アンカーを接続していない場合は、PDFファイルパスを入力します。代わりにファイルパスを編集してフォルダーを指定すると、ツールはそのフォルダーからすべてのPDFを読み込むことができます。
PDFファイルに含まれる内容に基づいて、いずれかの テキスト抽出オプション を選択します。
出力オプション を選択します。
ワークフローを実行します。

重要

PDFからテキスト抽出ツールはページ選択をサポートしていません。特定のページを選択するには、フィルターツールで出力をフィルタリングします。

テキスト抽出オプション

テキストおよび画像コンテンツを読み取る

PDFファイルには、テキスト文字とテキストの画像が混合して含まれている場合があります。テキストの画像は、テキスト文字を抽出するのに光学文字認識(OCR)が必要です。テキストの画像を含むファイルの場合、 [テキストおよび画像コンテンツを読み取る] を使用して、テキスト文字を直接読み込み、テキストの画像にはOCRを適用します。OCRの追加により、ファイル内のすべてのテキストを完全にカバーできます。

テキストコンテンツのみを読み取る

PDFファイルから直接、テキスト文字を読み取ります。テキスト文字のみの抽出は、OCRよりも最大10倍高速で一般的には正確です。

グラフィックとしてエンコードされたテキストのリスクスコア を使用して、ページの全テキストの抽出にOCRが必要かどうかに関するガイダンスを提供します。このオプションは、OCRよりも最大 2 倍高速です。 ページグラフィックの画像出力 を使用して、ツールの出力にページグラフィックの画像を含めます。

ページのリスクスコアが中または高の場合は、画像ツールを使用してページのグラフィックコンテンツを確認します。「PDFからテキスト抽出」ツールを使用するとグラフィック内の重要なテキストが欠落する場合は、 [テキストおよび画像コンテンツを読み取る] オプションを使用してページを再度実行します。

出力オプション

文字列:1ページあたり1レコード。ページの全テキストを表す単一文字列。改行文字を含みます。
行: テキスト1行あたり1レコード。テキストの行を表す単一文字列。
パイプ区切りテーブル:1ページあたり1レコード。ページの全テキストを表す、ページ区切りのテーブル。
Alteryxテーブル形式: テキスト1行あたり1レコード。列は、テキスト内の水平方向の空間オーバーラップに基づいて再分割されたテキストを含みます。

複数の形式を選択した場合、出力には、異なる行にわたって各形式が含められます。

T入力アンカー (オプション)

T 入力アンカーを使用すると、PDFからテキスト抽出ツールの出力が変化します。

追加の出力列により、各レコードのマークアップ領域が識別されます。
文字列およびテーブル領域は、選択したすべての出力フォーマットで出力されます。
PDFからテキスト抽出ツールは、画像領域をトリミングし、画像Blobファイルとして出力します。画像Blobファイルは画像ツールで表示できます。