Da PDF a testo

Utilizza lo strumento Da PDF a testo per estrarre il testo dai file PDF. I file PDF possono contenere un mix di caratteri di testo e immagini di testo. Le immagini di testo richiedono il riconoscimento ottico dei caratteri (OCR) per estrarre i caratteri di testo. Lo strumento Da PDF a testo può estrarre i caratteri del testo direttamente dai file PDF. Lo strumento può anche applicare il riconoscimento ottico dei caratteri (OCR) per estrarre il testo dalle immagini in cui è presente. Per i documenti scansionati che rappresentano immagini (ad esempio file JPG, PNG e BMP), utilizza lo strumento Immagine in un testo .

Alteryx Intelligence Suite necessario

Questo strumento fa parte di Alteryx Intelligence Suite . Intelligence Suite richiede una licenza separata e un ulteriore programma di installazione per Designer. Dopo aver installato Designer, installa Intelligence Suite e avvia la versione di prova gratuita .

Supporto linguistico

Se selezioni Leggi solo contenuto di testo , lo strumento Da PDF a testo non prevede restrizioni linguistiche.

Se selezioni Leggi contenuto di testo e immagini o Punteggio di rischio per testo codificato come grafica , lo strumento supporta arabo, inglese, francese, tedesco, italiano, giapponese, portoghese, cinese semplificato e spagnolo.

Componenti dello strumento

Lo strumento Da PDF a testo ha 3 ancoraggi (2 di input e 1 di output):

Ancoraggio di input D : (facoltativo) utilizza l'ancoraggio di input D per collegare un elenco percorsi di file PDF o di directory che contengono file PDF. Esistono diversi modi per collegare l'elenco di directory o percorsi di file:
- Utilizza lo strumento Dati di input per aggiungere un elenco di directory o percorsi di file da un file CSV, XLSX o TXT.
- Immetti manualmente le directory o i percorsi dei file nello strumento Input di testo .
- Utilizza lo strumento Directory per generare un elenco di percorsi di file all'interno di una cartella.
Ancoraggio di input T : (facoltativo) utilizza l'ancoraggio di input T per collegare le annotazioni dallo strumento Modello immagine . Identifica le aree per l'estrazione del testo con annotazioni in stringhe e tabelle. Ritaglia le immagini per l'elaborazione a valle con annotazioni delle immagini.
Ancoraggio di output: utilizza l'ancoraggio di output per trasferire i dati di testo estratti a valle.

Configura lo strumento

Aggiungi uno strumento Da PDF a testo all'area di disegno.
(Facoltativo) Utilizza l'ancoraggio di input D per trasferire un elenco di percorsi di file PDF o un elenco di directory che contengono file PDF allo strumento Da PDF a testo.
(Facoltativo) Utilizza l'ancoraggio di input T per trasferire le annotazioni dallo strumento Modello immagine. Se è stato collegato lo strumento Modello immagine e tutte le pagine hanno lo stesso layout, seleziona Applica la prima pagina di annotazioni in Modello immagine su tutte le pagine .
Se hai eseguito il collegamento all'ancoraggio di input D , seleziona la colonna che contiene i percorsi dei file.
Se non hai eseguito il collegamento all'ancoraggio di input D , immetti il percorso del file PDF. Puoi modificare il percorso del file in modo che punti a una cartella; in tal caso, lo strumento legge tutti i file PDF da tale cartella.
Seleziona una delle opzioni di estrazione del testo in base al contenuto del file PDF.
Seleziona le opzioni di output .
Esegui il flusso di lavoro.

Importante

Lo strumento Da PDF a testo non supporta la selezione della pagina. Per selezionare pagine specifiche, filtra l'output con uno strumento Filtro .

Opzioni di estrazione del testo

Lettura contenuto di testo e immagini

I file PDF possono contenere un mix di caratteri di testo e immagini di testo. Le immagini di testo richiedono il riconoscimento ottico dei caratteri (OCR) per estrarre i caratteri di testo. Per i file con immagini di testo, utilizza Leggi contenuto di testo e immagini per leggere direttamente i caratteri di testo e applicare il riconoscimento ottico dei caratteri (OCR) alle immagini di testo. L'aggiunta del riconoscimento ottico (OCR) dei caratteri fornisce una copertura completa di tutto il testo del file.

Lettura solo contenuto di testo

Puoi leggere i caratteri di testo direttamente dal file PDF. L'estrazione dei soli caratteri di testo è fino a 10 volte più veloce del processo OCR ed è solitamente più accurata.

Utilizza Punteggio di rischio per testo codificato come grafica per indicare se la funzione OCR è necessaria per estrarre tutto il testo nella pagina. Questa opzione è fino a due volte più veloce rispetto alla funzione OCR. Utilizza Immagine di output della grafica della pagina per includere un'immagine della grafica della pagina nell'output dello strumento.

Se il punteggio di rischio di una pagina è medio o alto, utilizza lo strumento Immagine per esaminare il contenuto grafico della pagina. Se lo strumento Da PDF a testo non rileva testo importante nella grafica, rileggi la pagina con l'opzione Leggi contenuto di testo e immagini .

Opzioni di output

Stringa: un record per pagina. Stringa singola per tutto il testo della pagina. Include caratteri di ritorno a capo.
Linee: un record per riga di testo. Stringa singola per la riga di testo.
Tabella delimitata da barre verticali: un record per pagina. Tabella delimitata da barre verticali per tutto il testo della pagina.
Tabella Alteryx: un record per riga di testo. Le colonne includono testo suddiviso in base alla sovrapposizione spaziale orizzontale all'interno del testo.

Se selezioni più di un formato, l'output include ogni formato su righe diverse.

Ancoraggio di input T (opzionale)

L'output dello strumento Da PDF a testo cambia quando utilizzi l'ancoraggio di input T .

Una colonna di output aggiuntiva identifica l'area di annotazione per ogni record.
Le aree di stringa e tabella vengono generate in tutti i formati di output selezionati.
Lo strumento Da PDF a testo ritaglia le aree dell'immagine e le genera come file blob di immagine. Visualizza i file blob di immagine con lo strumento Immagine .