Skip to main content

PDF to Text tool icon PDF vers texte

Utilisez l'outil PDF vers texte pour extraire du texte de vos fichiers PDF. Les fichiers PDF peuvent contenir un mélange de caractères de texte et d'images de texte. Les images de texte nécessitent une reconnaissance optique de caractères (OCR) pour extraire les caractères du texte. L'outil PDF vers texte peut extraire des caractères de texte directement à partir de fichiers PDF. L'outil applique également la reconnaissance optique des caractères pour extraire du texte à partir d'images contenant du texte. Pour les documents numérisés qui constituent des images (par exemple, des fichiers JPG, PNG et BMP), utilisez l' outil Image en texte .

Alteryx Intelligence Suite requis

Cet outil fait partie de Alteryx Intelligence Suite . Intelligence Suite nécessite une licence séparée et un programme d'installation complémentaire pour Designer. Après avoir installé Designer, installez Intelligence Suite et commencez votre essai gratuit .

Prise en charge des langues

Si vous sélectionnez Lire le contenu textuel uniquement , l'outil PDF vers texte ne présente pas de restriction linguistique.

Si vous sélectionnez Lire le contenu du texte et de l'image ou Évaluation du risque pour le texte encodé sous forme de graphique , l'outil prend en charge l'allemand, l'anglais, l'arabe, le chinois simplifié, l'espagnol, le français, l'italien, le japonais et le portugais.

Composants de l'outil

L'outil PDF vers texte dispose de 3 ancrages (2 entrées et 1 sortie) :

  • Ancrage d'entrée D (facultatif) : utilisez l'ancrage d'entrée D pour connecter une liste de chemins de fichiers PDF ou une liste de répertoires contenant des fichiers PDF. Il existe plusieurs façons de connecter votre liste de chemins de fichiers ou de répertoires :

    • Utilisez l' outil Entrée de données pour ajouter une liste de chemins d'accès aux fichiers ou de répertoires à partir d'un fichier CSV, XLSX ou TXT.

    • Saisissez manuellement les chemins d'accès aux fichiers ou les répertoires dans l' outil Saisie de texte .

    • Utilisez l' outil Répertoire pour générer une liste de chemins d'accès aux fichiers dans un dossier.

  • Ancrage d'entrée   T  (facultatif) : utilisez l'ancrage d'entrée T  pour connecter les annotations de l' outil Modèle d'image . Identifiez les zones pour extraire du texte avec des annotations de chaîne et de table. Rognez les images pour un traitement en aval avec des annotations d'image.

  • Ancrage de sortie : utilisez l'ancrage de sortie pour transmettre les données de texte extraites en aval.

Configuration de l'outil

  1. Ajoutez un outil PDF vers texte au canevas.

  2. Si vous le souhaitez, utilisez l'ancrage d'entrée  D pour transmettre une liste de chemins d'accès aux fichiers PDF ou une liste de répertoires contenant des fichiers PDF à l'outil PDF vers texte.

  3. Si vous le souhaitez, utilisez l'ancrage d'entrée  T  pour transmettre les annotations à partir de l'outil Modèle d'image. Si vous avez connecté l'outil Modèle d'image et que toutes les pages présentent la même mise en page, sélectionnez Appliquer la première page d'annotations de l'outil Modèle d'image à toutes les pages .

  4. Si vous avez connecté l'ancrage d'entrée  D , sélectionnez la colonne contenant les chemins d'accès aux fichiers.

  5. Si vous n'avez pas connecté l'ancrage d'entrée  D , saisissez le chemin d'accès au fichier PDF. Vous pouvez modifier le chemin d'accès au fichier pour qu'il pointe vers un dossier. Ainsi, l'outil lit tous les PDF de celui-ci.

  6. Sélectionnez l'une des options d'extraction de texte en fonction du contenu du fichier PDF.

  7. Sélectionnez vos options de sortie .

  8. Exécutez le workflow.

Important

L'outil PDF vers texte ne prend pas en charge la sélection de page. Pour sélectionner des pages spécifiques, filtrez la sortie avec un outil Filtrer .

Options d'extraction de texte

Lire le contenu du texte et de l'image

Les fichiers PDF peuvent contenir un mélange de caractères de texte et d'images de texte. Les images de texte nécessitent une reconnaissance optique de caractères (OCR) pour extraire les caractères du texte. Pour les fichiers contenant des images de texte, utilisez l'option Lire le contenu du texte et de l'image pour lire directement les caractères du texte et appliquer l'OCR aux images texte. L'ajout de l'OCR offre une couverture complète de tout le texte de votre fichier.

Lire le contenu textuel uniquement

Lisez les caractères du texte directement depuis votre fichier PDF. L'extraction des caractères de texte uniquement est jusqu'à 10 fois plus rapide que l'OCR et est généralement plus précise.

Utilisez Évaluation du risque pour le texte encodé sous forme de graphique pour savoir si l'OCR est nécessaire pour extraire tout le texte de la page. Cette option est jusqu'à 2 fois plus rapide que l'OCR. Utilisez l'option Générer une image des graphiques de la page pour inclure une image des graphiques de la page dans la sortie de l'outil.

Si l'évaluation de risque de la page est moyenne ou élevée, utilisez l' outil Image pour examiner le contenu graphique de la page. Si l'outil PDF vers texte ne prend pas en compte un texte important dans les graphiques, exécutez à nouveau la page avec l'option Lire le contenu du texte et de l'image .

Options de sortie

  • Chaîne : un enregistrement par page. Une chaîne unique pour tout le texte de la page. Inclut les caractères de retour à la ligne.

  • Lignes : un enregistrement par ligne de texte. Une chaîne unique pour la ligne de texte.

  • Table délimitée par une barre verticale : un enregistrement par page. Une table délimitée par une barre verticale pour tout le texte de la page.

  • Table Alteryx : un enregistrement par ligne de texte. Les colonnes incluent le texte subdivisé en fonction de la superposition horizontale spatiale dans le texte.

Si vous sélectionnez plus d'un format, la sortie inclut chaque format sur différentes lignes.

Ancrage d'entrée T (facultatif)

La sortie de l'outil PDF vers texte change lorsque vous utilisez l'ancrage d'entrée  T .

  • Une colonne de sortie supplémentaire identifie la région de balisage pour chaque enregistrement.

  • Les régions de chaîne et de table sont générées dans tous les formats de sortie sélectionnés.

  • L'outil PDF vers texte découpe les zones de l'image et les génère sous forme de fichiers Blob d'image. Affichez les fichiers Blob d'image avec l' outil Image .