PDF a texto

Utiliza la herramienta PDF a texto para extraer texto de tus archivos PDF. Los archivos PDF pueden contener una combinación de caracteres e imágenes de texto. Las imágenes de texto requieren reconocimiento óptico de caracteres (OCR) para extraer los caracteres de texto. La herramienta PDF a texto puede extraer caracteres de texto directamente desde archivos PDF. La herramienta también puede aplicar el OCR para extraer texto de imágenes que contienen texto. Para documentos escaneados que sean imágenes (por ejemplo, archivos JPG, PNG y BMP), utiliza la herramienta Imagen a texto .

Se requiere Alteryx Intelligence Suite

Esta herramienta forma parte de Alteryx Intelligence Suite. Alteryx Intelligence Suite requiere una licencia independiente y un instalador de complemento para Designer. Después de instalar Alteryx Designer, instala Alteryx Intelligence Suite e inicia la prueba gratuita.

Idiomas compatibles

Si seleccionas Leer solo contenido de texto , la herramienta PDF a texto no tiene ninguna restricción de idioma.

Si seleccionas Leer contenido de texto e imagen o Puntuación de riesgo para texto codificado como gráfico , la herramienta admite los idiomas árabe, inglés, francés, alemán, italiano, japonés, portugués, chino simplificado y español.

Componentes de la herramienta

La herramienta PDF a texto tiene tres anclas (dos de entrada y una de salida):

Ancla de entrada D : (opcional) utiliza el ancla de entrada D para conectar una lista de rutas de archivos PDF o una lista de directorios que contienen archivos PDF. Hay varias formas de conectar la lista de rutas de archivos o directorios:
- Utiliza la herramienta Datos de entrada para agregar una lista de rutas de archivos o directorios desde un archivo CSV, XLSX o TXT.
- Ingresa manualmente las rutas de los archivos o los directorios en una herramienta Entrada de texto .
- Utiliza la herramienta Directorio para generar una lista de rutas de archivos dentro de una carpeta.
Ancla de entrada T : (opcional) utiliza el ancla de entrada T para conectar anotaciones de la herramienta Plantilla de imagen . Identifica regiones para la extracción de texto con anotaciones de cadenas y tablas. Recorta imágenes para su procesamiento posterior con anotaciones de imagen.
Ancla de salida: utiliza el ancla de salida para pasar los datos del texto extraído a otras herramientas en el flujo de trabajo.

Configurar la herramienta

Agrega una herramienta PDF a texto al lienzo.
(Opcional) Utiliza el ancla de entrada D para pasar una lista de rutas de archivos PDF o una lista de directorios que contienen archivos PDF a la herramienta PDF a texto.
(Opcional) Utiliza el ancla de entrada T para pasar anotaciones de la herramienta Plantilla de imagen. Si conectaste la herramienta Plantilla de imagen y todas las páginas tienen el mismo diseño, selecciona Aplicar las anotaciones de la primera página de la herramienta Plantilla de imagen a todas las páginas .
Si te conectaste al ancla de entrada D , selecciona la columna que contiene las rutas de los archivos.
Si no te conectaste al ancla de entrada D , ingresa la ruta del archivo PDF. En cambio, puedes editar la ruta del archivo para que seleccione una carpeta y la herramienta leerá todos los PDF de esa carpeta.
Selecciona una de las Opciones de extracción de texto según el contenido del archivo PDF.
Selecciona tus Opciones de salida .
Ejecuta el flujo de trabajo.

Importante

La herramienta PDF a texto no admite la selección de páginas. Para seleccionar páginas específicas, filtra el resultado con una herramienta Filtro .

Opciones de extracción de texto

Leer contenido de texto e imagen

Los archivos PDF pueden contener una combinación de caracteres e imágenes de texto. Las imágenes de texto requieren reconocimiento óptico de caracteres (OCR) para extraer los caracteres de texto. Para archivos con imágenes de texto, utiliza la opción Leer contenido de texto e imagen para leer los caracteres de texto directamente y aplicar el OCR a las imágenes de texto. La adición del OCR entrega una cobertura completa de todo el texto en tu archivo.

Leer solo contenido de texto

Lee los caracteres del texto directamente desde tu archivo PDF. La extracción de los caracteres de texto es hasta diez veces más rápida que el OCR y es más exacta en general.

Utiliza la opción Puntuación de riesgo de texto codificado como gráfico para saber si es necesario el OCR para extraer todo el texto en la página. Esta opción es hasta dos veces más rápida que el OCR. Utiliza la opción "Generar imagen de los gráficos de la página en la salida" para incluir una imagen de los gráficos de la página en la salida de la herramienta.

Si la puntuación de riesgo de una página es media o alta, utiliza la herramienta Imagen para examinar el contenido de los gráficos de la página. Si la herramienta PDF a texto no contiene texto importante en los gráficos, vuelve a ejecutar la página con la opción Leer contenido de texto e imagen .

Opciones de salida

Cadena: un registro por página. Una sola cadena para todo el texto de la página. Incluye caracteres de retorno de carro.
Líneas: un registro por línea de texto. Una sola cadena para la línea de texto.
Tabla delimitada por plecas: un registro por página. Una tabla delimitada por plecas para todo el texto de la página.
Tabla de Alteryx: un registro por línea de texto. Las columnas incluyen el texto subdividido en función de una superposición horizontal espacial dentro del texto.

Si seleccionas más de un formato, la salida incluye cada formato en filas separadas.

Ancla de entrada T (opcional)

La salida de la herramienta PDF a texto cambia cuando utilizas el ancla de entrada T .

Una columna de salida adicional identifica la región de marcado para cada registro.
Las regiones de tabla y cadena se generan en todos los formatos de salida que selecciones.
La herramienta PDF a texto corta las regiones de la imagen y las convierte en archivos Blob de imagen. Visualiza los archivos Blob de imagen con la herramienta Imagen .