
Extração de Pares Chave-Valor
Ferramenta de laboratório
Esta é uma ferramenta da categoria Laboratório e não deve ser usada na produção. Ela pode ter problemas conhecidos e documentados, pode não ter recursos completos e está sujeita a alterações.
Um par chave-valor vincula dois elementos de dados. A chave é um identificador exclusivo que define o conjunto de dados (por exemplo, pessoa, local, coisa) e o valor são os dados identificados. Exemplos de pares chave-valor:
- Pessoa: John
- Local: Banco
- Coisa: Cheque
A ferramenta Extração de Pares Chave-Valor identifica estruturas de pares chave-valor em seus documentos. Ela aproveita a biblioteca do Google Tesseract e a correspondência parcial para encontrar pares chave-valor. A ferramenta Extração de Pares Chave-Valor não é destinada a dados tabulares. Para dados tabulares, use a ferramenta Modelo de Imagem.
Se você estiver passando documentos com ruído para a ferramenta Extração de Pares Chave-Valor, tente pré-processar imagens com o recurso "Otimização para OCR" na ferramenta Processamento de Imagem para melhorar os resultados. O recurso "Otimização para OCR" limpa documentos que têm planos de fundo não brancos, marcas d'água e outros ruídos.
Essa ferramenta faz parte do Alteryx Intelligence Suite. O Intelligence Suite exige uma licença separada e um instalador complementar para o Designer. Depois de instalar o Designer, instale o Intelligence Suite e inicie sua avaliação gratuita.
Suporte a idiomas
A ferramenta Extração de Pares Chave-Valor é compatível com entradas em inglês, chinês (simplificado), francês, alemão, italiano, japonês, português e espanhol. Recomendamos que sua chave e valor estejam no mesmo idioma.
Componentes da ferramenta
A ferramenta Extração de Pares Chave-Valor tem três âncoras:
- Âncora D: use a âncora D para passar os dados de imagem que você deseja analisar.
- Âncora K: use a âncora K para passar as chaves que você deseja identificar.
- Âncora de saída: use a âncora de saída para passar os pares chave-valor para etapas posteriores.
Configurar a ferramenta
- Adicione uma ferramenta de Extração de Pares Chave-Valor à tela.
- Use as âncoras para conectar a ferramenta Extração de Pares Chave-Valor aos dados de imagem e às chaves que você deseja usar no fluxo de trabalho.
- Selecione a coluna que contém os dados de Imagem.
- Selecione o Idioma do texto nos dados da imagem.
- Selecione a coluna que contém as Chaves. Dica: você pode usar a ferramenta Entrada de Texto para inserir suas chaves no fluxo de trabalho.
- Execute o fluxo de trabalho.
Saída
A ferramenta Extração de Pares Chave-Valor faz a saída das colunas de entrada além de colunas nomeadas com base em cada chave identificada. A coluna para cada chave contém os valores associados em uma única célula. Se houver mais de um valor por chave, a ferramenta separará os valores com um espaço (por exemplo, valor1 valor2 valor3). Se uma chave aparecer em mais de um local, a ferramenta criará uma coluna para cada instância (por exemplo, chave1, chave2, chave3).
Perguntas frequentes
Para obter melhores resultados, recomendamos que as chaves apresentem a maior correspondência possível com o documento. No entanto, a ferramenta Extração de Pares Chave-Valor pode encontrar chaves com letras maiúsculas ou minúsculas ou pares de chave-valor com diferentes delimitadores (por exemplo, [CHAVE: valor] e [chave, valor]).
Em geral, é possível usar a ferramenta com imagens que têm texto preto em planos de fundo brancos. No entanto, se estiver lidando com documentos que têm fundo não branco, o recurso "Otimização para OCR" da ferramenta Processamento de Imagem pode corrigir isso.
Recomendamos o uso do recurso "Otimização para OCR" da ferramenta Processamento de Imagem primeiro, pois ele faz a conversão automática para escala de cinza em segundo plano e não requer ajustes manuais para isso.
Não é possível conectar a ferramenta Extração de Pares Chave-Valor com a ferramenta Modelo de Imagem. Observação: a ferramenta Extração de Pares Chave-Valor identifica todas as instâncias das chaves especificadas e retorna seus valores correspondentes, independentemente de suas posições em um documento. Isso evita a necessidade de criar caixas delimitadoras e anotações.
Exclua todas as linhas vazias da lista de chaves e execute o fluxo de trabalho novamente.
A ferramenta Extração de Pares Chave-Valor não é otimizada para escrita à mão.
O ideal é estruturar os pares chave-valor deste modo:
Estrutura
<Chave>: <Valor>
Exemplo 1
Empresa: Alteryx
Exemplo 2
Nome: Libby
A ferramenta também pode reconhecer chaves com valores multilinha, desde que não haja linhas, como células de uma tabela, separando os valores:
Estrutura
<Chave>: <Valor Linha 1>
<Valor Linha 2>
<Valor Linha 3>
Exemplo 1
Endereço de envio: Empresa ABC
123 Main Street
Alguma cidade, Nova York 12345
Exemplo 2
Endereço de cobrança: Fornecedor XYZ
456 Pleasant Street