PDF para Texto
Use a ferramenta PDF para Texto para extrair texto dos seus arquivos PDF. Os arquivos PDF podem conter uma combinação de caracteres de texto e imagens de texto. As imagens de texto exigem a técnica de reconhecimento óptico de caracteres (OCR) para extrair os caracteres de texto. A ferramenta PDF para Texto pode extrair caracteres de texto diretamente de arquivos PDF. A ferramenta também pode aplicar OCR para extrair texto de imagens que contêm texto. Para documentos digitalizados que são imagens (por exemplo, arquivos JPG, PNG e BMP), use a ferramenta Imagem para Texto .
Requer o Alteryx Intelligence Suite
Esta ferramenta faz parte do Alteryx Intelligence Suite . O Intelligence Suite exige uma licença separada e um instalador complementar para o Designer. Depois de instalar o Designer, instale o Intelligence Suite e inicie sua avaliação gratuita .
Suporte a idiomas
Se você selecionar Ler apenas conteúdo de texto , a ferramenta PDF para Texto não terá uma restrição de idioma.
Se você selecionar Ler conteúdo de texto e imagem ou Pontuação de risco para texto codificado como gráficos , a ferramenta oferecerá suporte em árabe, inglês, francês, alemão, italiano, japonês, português, chinês simplificado e espanhol.
Componentes da ferramenta
A ferramenta PDF para Texto tem três âncoras (duas de entradas e uma de saída):
Âncora de entrada D : (opcional) use a âncora de entrada D para conectar uma lista de caminhos de arquivos PDF ou uma lista de diretórios que contêm arquivos PDF. Há várias maneiras de conectar sua lista de diretórios ou caminhos de arquivo:
Use a ferramenta Dados de Entrada para adicionar uma lista de diretórios ou caminhos a partir de um arquivo CSV, XLSX ou TXT.
Insira manualmente os diretórios ou caminhos na ferramenta Entrada de Texto .
Use a ferramenta Diretório para gerar uma lista de caminhos de arquivo dentro de uma pasta.
Âncora de entrada T : (opcional) use a âncora de entrada T para conectar anotações da ferramenta Modelo de Imagem . Identifique regiões para extração de texto com anotações de cadeia de caracteres e tabela. Corte imagens para processamento posterior com anotações de imagens.
Âncora de saída: use a âncora de saída para passar os dados do texto extraído para etapas posteriores.
Configurar a ferramenta
Adicione a ferramenta PDF para Texto à tela.
(Opcional) Use a âncora de entrada D para passar uma lista de caminhos de arquivos PDF ou uma lista de diretórios que contêm arquivos PDF para a ferramenta PDF para Texto.
(Opcional) Use a âncora de entrada T para passar anotações da ferramenta Modelo de Imagem. Se você conectou a ferramenta Modelo de Imagem e todas as páginas têm o mesmo layout, selecione Aplicar a primeira página de anotações na ferramenta Modelo de Imagem a todas as páginas .
Se você fez conexão à âncora de entrada D , selecione a coluna que contém os caminhos de arquivo.
Se você não conectou nada à âncora D , insira o caminho do arquivo PDF. Você pode editar o caminho de arquivo para apontar para uma pasta. Assim, a ferramenta lê todos os PDFs dessa pasta.
Selecione uma das Opções de extração de texto com base no conteúdo contido no PDF.
Selecione suas Opções de saída .
Clique no botão para Executar o fluxo de trabalho.
Importante
A ferramenta PDF para Texto não oferece suporte à seleção de página. Para selecionar páginas específicas, filtre a saída com uma ferramenta Filtrar .
Opções de extração de texto
Ler conteúdo de texto e imagem
Os arquivos PDF podem conter uma combinação de caracteres de texto e imagens de texto. As imagens de texto exigem a técnica de reconhecimento óptico de caracteres (OCR) para extrair os caracteres de texto. Para arquivos com imagens de texto, use a opção Ler conteúdo de texto e imagem para ler diretamente os caracteres de texto e aplicar OCR às imagens. A adição do OCR fornece cobertura completa de todo o texto do seu arquivo.
Ler apenas conteúdo de texto
Leia caracteres de texto diretamente no arquivo PDF. A extração de somente caracteres de texto é dez vezes mais rápida do que utilizar OCR e geralmente é mais precisa.
Use a opção Pontuação de risco para texto codificado como gráfico para saber se é necessário utilizar OCR para extrair todo o texto na página. Essa opção é até duas vezes mais rápida do que utilizar OCR. Use a opção Gerar imagem dos gráficos da página para incluir uma imagem dos gráficos da página na saída da ferramenta.
Se a pontuação de risco de uma página for média ou alta, use a ferramenta Imagem para examinar o conteúdo gráfico da página. Se a ferramenta PDF para Texto omitiu texto importante das imagens gráficas, execute a página novamente marcando a opção Ler conteúdo de texto e imagem .
Opções de saída
Cadeia de caracteres: um registro por página. Uma única cadeia de caracteres para todo o texto da página. Inclui caracteres de retorno de linha.
Linhas: um registro por linha de texto. Uma única cadeia de caracteres para cada linha de texto.
Tabela delimitada por barras verticais: um registro por página. Tabela delimitada por barras verticais para todo o texto da página.
Tabela Alteryx: um registro por linha de texto. As colunas incluem texto subdividido com base na sobreposição espacial horizontal dentro do texto.
Se você selecionar mais de um formato, a saída incluirá cada formato em linhas diferentes.
Âncora de entrada T (opcional)
A saída da ferramenta PDF para Texto é alterada quando você usa a âncora de entrada T .
Uma coluna de saída adicional identifica a região da marcação para cada registro.
As regiões de tabela e cadeia de caracteres são enviadas para a saída em todos os formatos que você seleciona.
A ferramenta PDF para Texto corta regiões de imagens e as envia para a saída como arquivos blob. Visualize os arquivos de imagem blob com a ferramenta Imagem .