Skip to main content

PDF to Text tool icon PDF zu Text

Verwenden Sie das PDF-zu-Text-Tool, um Text aus PDF-Dateien zu extrahieren. PDF-Dateien können eine Kombination aus Textzeichen und Textabbildungen enthalten. Textabbildungen erfordern eine optische Zeichenerkennung (OCR), um die Textzeichen zu extrahieren. Das PDF-zu-Text-Tool kann Textzeichen direkt aus PDF-Dateien extrahieren. Das Tool kann auch OCR anwenden, um Text aus Bildern zu extrahieren, die Text enthalten. Verwenden Sie für gescannte Dokumente, die Bilder sind (z. B. JPG-, PNG- und BMP-Dateien), das Bild-zu-Text-Tool .

Alteryx Intelligence Suite - Überblick

Dieses Tool ist Teil der Alteryx Intelligence Suite . Alteryx Intelligence Suite erfordert eine separate Lizenz und ein Add-on-Installationsprogramm für Designer. Nachdem Sie Designer installiert haben, installieren Sie Intelligence Suite und starten Sie Ihre kostenlose Testversion .

Sprachunterstützung

Wenn Sie Nur Textinhalt lesen auswählen, hat das PDF-zu-Text-Tool keine Sprachbeschränkung.

Wenn Sie Text- und Bildinhalt lesen oder Risikobewertung für als Grafik kodierten Text auswählen, unterstützt das Tool Arabisch, Deutsch, Englisch, Französisch, Italienisch, Japanisch, Portugiesisch, vereinfachtes Chinesisch und Spanisch.

Tool-Komponenten

Das PDF-zu-Text-Tool verfügt über drei Anker (zwei Eingabeanker und ein Ausgabeanker):

  • D -Eingabeanker: (Optional) Verwenden Sie den  D -Eingabeanker, um eine Liste von PDF-Dateipfaden oder eine Liste von Verzeichnissen zu verbinden, die PDF-Dateien enthalten. Es gibt mehrere Möglichkeiten, eine Liste mit Dateipfaden oder Verzeichnissen zu verbinden:

    • Verwenden Sie das  Eingabedaten-Tool , um eine Liste von Dateipfaden oder Verzeichnissen aus einer CSV-, XLSX- oder TXT-Datei hinzuzufügen.

    • Geben Sie die Dateipfade oder Verzeichnisse manuell im  Texteingabe-Tool ein.

    • Verwenden Sie das  Verzeichnis-Tool , um eine Liste von Dateipfaden innerhalb eines Ordners zu erstellen.

  • T -Eingabeanker: (Optional) Verwenden Sie den  T -Eingabeanker, um Anmerkungen aus dem  Bildvorlage-Tool zu verbinden. Identifizieren Sie Bereiche für die Textextraktion mit Zeichenfolgen und Tabellenanmerkungen. Schneiden Sie Bilder für die nachgeschaltete Verarbeitung mit Bildanmerkungen zu.

  • Ausgabeanker: Verwenden Sie den Ausgabeanker, um die extrahierten Textdaten nachgeschaltet weiterzuleiten.

Tool-Konfiguration

  1. Fügen Sie dem Canvas ein PDF-zu-Text-Tool hinzu.

  2. (Optional) Verwenden Sie den  D -Eingabeanker, um eine Liste von PDF-Dateipfaden oder eine Liste von Verzeichnissen, die PDF-Dateien enthalten, an das PDF-zu-Text-Tool zu übergeben.

  3. (Optional) Verwenden Sie den  T -Eingabeanker, um Anmerkungen aus dem Bildvorlage-Tool zu übergeben. Wenn eine Verbindung zum Bildvorlage-Tool besteht und alle Seiten dasselbe Layout haben, verwenden Sie die Funktion Anmerkungen zur ersten Seite im Bildvorlage-Tool auf alle Seiten anwenden .

  4. Wenn Sie eine Verbindung zum  D -Eingabeanker hergestellt haben, wählen Sie die Spalte aus, die die Dateipfade enthält.

  5. Wenn Sie den  D -Eingabeanker nicht verbunden haben, geben Sie den PDF-Dateipfad ein. Sie können den Dateipfad so bearbeiten, dass dieser stattdessen auf einen Ordner zeigt und das Tool dann alle PDF-Dateien aus diesem Ordner einliest.

  6. Wählen Sie je nach Inhalt der PDF-Datei eine der  Textextraktionsoptionen aus.

  7. Wählen Sie die  Ausgabeoptionen aus.

  8. Klicken Sie auf Ausführen , um den Workflow auszuführen.

Wichtig

Das PDF-zu-Text-Tool unterstützt keine Seitenauswahl. Filtern Sie die Ausgabe mit einem Filter-Tool , um spezifische Seiten auszuwählen.

Textextraktionsoptionen

Text- und Bildinhalt lesen

PDF-Dateien können eine Kombination aus Textzeichen und Textabbildungen enthalten. Textabbildungen erfordern eine optische Zeichenerkennung (OCR), um die Textzeichen zu extrahieren. Verwenden Sie für Dateien mit Textbildern  Text- und Bildinhalt lesen , um Textzeichen direkt zu lesen und OCR auf die Textbilder anzuwenden. Mit zusätzlicher OCR-Funktion wird der komplette Text in einer Datei erfasst.

Nur Textinhalt lesen

Lesen Sie Textzeichen direkt aus einer PDF-Datei. Das Extrahieren von Textzeichen erfolgt bis zu 10x schneller als OCR und ist im Allgemeinen genauer.

Verwenden Sie die Risikobeurteilung für als Grafiken codierten Text , um zu bestimmen, ob OCR erforderlich ist, um den gesamten Text auf der Seite zu extrahieren. Diese Option ist bis zu 2-mal schneller als OCR. Verwenden Sie Bild der Seitengrafiken generieren , um ein Bild der Seitengrafiken in die Tool-Ausgabe aufzunehmen.

Wenn eine Risikobewertung mittel oder hoch ist, verwenden Sie das  Bild-Tool , um den Grafikinhalt der Seite zu untersuchen. Wenn das PDF-zu-Text-Tool wichtigen Text in den Grafiken verpasst, führen Sie die Seite erneut mit der Option  Text- und Bildinhalte lesen aus.

Ausgabeoptionen

  • Zeichenfolge: ein Datensatz pro Seite. Einzelne Zeichenfolge für den gesamten Text auf der Seite. Enthält Zeilenrücklaufzeichen.

  • Zeilen: ein Datensatz pro Textzeile. Eine Zeichenfolge für die Textzeile.

  • Tabelle getrennt durch senkrechte Striche (Pipeoperator): ein Datensatz pro Seite. Tabelle getrennt durch senkrechte Striche (Pipeoperator) für den gesamten Text auf der Seite.

  • Alteryx Tabelle: ein Datensatz pro Textzeile. Die Spalten enthalten unterteilten Text basierend auf der horizontalen räumlichen Überlappung im Text.

Wenn Sie mehr als ein Format auswählen, enthält die Ausgabe jedes Format über verschiedene Zeilen hinweg.

T-Eingabeanker (optional)

Die Ausgabe des PDF-zu-Text-Tools ändert sich, wenn Sie den  T -Eingabeanker verwenden.

  • Eine zusätzliche Ausgabespalte gibt die Markup-Region für jeden Datensatz an.

  • Zeichenfolgen- und Tabellenbereiche werden in allen von Ihnen ausgewählten Ausgabeformaten ausgegeben.

  • Das PDF-zu-Text-Tool schneidet Bildbereiche zu und gibt sie als Blob-Bilddateien aus. Sie können die Blob-Bilddateien mit dem  Bild-Tool anzeigen.