
Extraction de paires clé-valeur
Outil Laboratoire
Il s'agit d'un outil Laboratoire qui ne doit pas être utilisé en production. Il peut être associé à des problèmes connus et documentés. Il est possible qu'il n'intègre pas encore toutes les fonctionnalités prévues et qu'il soit susceptible d'être modifié.
Une paire clé-valeur relie 2 éléments de données. La clé est un identifiant unique qui définit le jeu de données (par exemple, personne, lieu, chose) et la valeur correspond aux données identifiées. Exemples de paires clé-valeur :
- Personne : John
- Lieu : banque
- Chose : vérifier
L'outil Extraction de paires clé-valeur identifie les structures de paires clé-valeur dans vos documents. L'outil tire parti de la bibliothèque Google Tesseract et des correspondances partielles pour trouver des paires clé-valeur. L'outil Extraction de paires clé-valeur n'est pas destiné aux données tabulaires. Pour les données tabulaires, utilisez l'outil Modèle d'image.
Si vous passez des documents corrompus à l'outil Extraction de paires clé-valeur, essayez de prétraiter les images avec la fonction d'Optimisation de l'OCR de l'outil Traitement d'image pour améliorer les résultats. La fonctionnalité Optimisation de l'OCR nettoie les documents présentant des arrière-plans non blancs, des filigranes et d'autres bruits.
Prise en charge des langues
L'outil Extraction de paires clé-valeur prend en charge les entrées suivantes : anglais, chinois (simplifié), français, allemand, italien, portugais et espagnol. Nous vous recommandons d'utiliser la même langue pour votre clé et votre valeur.
Composants de l'outil
L'outil Extraction de paires clé-valeur comporte 3 ancrages :
- Ancrage D : utilisez l'ancrage D pour passer les données d'image que vous souhaitez analyser.
- Ancrage K : utilisez l'ancrage K pour passer les clés que vous souhaitez identifier.
- Ancrage de sortie : utilisez l'ancrage de sortie pour passer les paires clé-valeur en aval.
Configurer l'outil
- Ajoutez un outil Extraction de paires clé-valeur au canevas.
- Utilisez les ancrages pour connecter l'outil Extraction de paires clé-valeur aux données d'image et clés que vous souhaitez utiliser dans le workflow.
- Sélectionnez la colonne contenant les données d'Image.
- Sélectionnez la Langue du texte dans les données d'image.
- Sélectionnez la colonne contenant les Clés. Conseil : vous pouvez utiliser l'outil Saisie de texte pour saisir vos clés dans le workflow.
- Exécutez le workflow.
Sortie
L'outil Extraction de paires clé-valeur affiche les colonnes entrantes en plus des colonnes nommées d'après chaque clé identifiée. La colonne de chaque clé contient les valeurs associées dans une seule cellule. S'il y a plus d'une valeur par clé, l'outil sépare les valeurs avec une espace (par exemple, valeur1 valeur2 valeur3). Si une clé apparaît à plus d'un emplacement, l'outil crée une colonne pour chaque instance (par exemple, clé1, clé2, clé3).
FAQ
Pour de meilleurs résultats, nous vous recommandons de faire en sorte que les clés correspondent le plus possible au document. Cependant, l'outil Extraction de paires clé-valeur peut trouver des clés avec des casses différentes ou des paires clé-valeur avec des délimiteurs différents (par exemple, [CLÉ : valeur] et [clé, valeur]).
En général, vous pouvez utiliser l'outil avec des images dont le texte est noir sur fond blanc. Toutefois, si vous traitez des documents qui ont un arrière-plan non blanc, la fonction Optimisation de l'OCR de l'outil Traitement d'image peut corriger ce problème.
Nous vous recommandons d'utiliser d'abord la fonction Optimisation de l'OCR de l'outil Traitement d'image, car elle convertit automatiquement l'arrière-plan en niveaux de gris et élimine le besoin de régler manuellement les niveaux de gris.
Vous ne pouvez pas connecter l'outil Extraction de paires clé-valeur à l'outil Modèle d'image. Notez que l'outil Extraction de paires clé-valeur identifie toutes les instances de vos clés spécifiées et renvoie leurs valeurs correspondantes, quelle que soit leur position dans un document. Cela élimine la nécessité de créer des cadres et des annotations.
Supprimez toutes les lignes vides de votre liste de clés, puis exécutez à nouveau le workflow.
L'outil Extraction de paires clé-valeur n'est pas optimisé pour l'écriture manuscrite.
Dans l'idéal, structurez les paires clé-valeur comme suit :
Structure
<Clé> : <Valeur>
Exemple 1
Société : Alteryx
Exemple 2
Nom : Libby
L'outil peut également reconnaître les clés avec des valeurs multilignes tant qu'il n'y a pas de lignes, telles que les cellules d'un tableau, séparant les valeurs :
Structure
<Clé> : <Valeur Ligne 1>
<Valeur Ligne 2>
<Valeur Ligne 3>
Exemple 1
Adresse d'expédition : société ABC
123, rue principale
Lyon, Rhône-Alpes 69007
Exemple 2
Adresse de facturation : fournisseur XYZ
456 Pleasant Street