in

análisis: ¿cómo extraer datos de un archivo PDF sin perder de vista su estructura?

apple touch icon@2

Básicamente, no existe una solución fácil de cortar y pegar porque PDF no está realmente muy interesado en la estructura. Hay muchas otras respuestas en este sitio que le dirán las cosas con mucho más detalle, pero esta debería darle los puntos principales:

Si identificar la estructura del texto en los documentos PDF es tan difícil, ¿cómo lo hacen tan bien los lectores de PDF?

Si desea hacer esto en PDF (donde tendría la mayor parte del control sobre el proceso), tendrá que recorrer todo el texto de las páginas e identificar los encabezados mirando sus propiedades de texto (fuentes utilizadas, tamaño relativo a el otro texto de la página, etc …).

Además de eso, también tendrás que identificar los párrafos observando la posición de los fragmentos de texto, los espacios en blanco en la página, la cercanía de ciertas letras, palabras y líneas … PDF por sí solo ni siquiera tiene un concepto para un «palabra», y mucho menos «líneas» o «párrafos».

Para complicar aún más las cosas, la forma en que se dibuja el texto en la página (y, por lo tanto, el orden en el que aparece en el archivo PDF) ni siquiera tiene que ser el orden de lectura correcto (o lo que los humanos consideraríamos correcto orden de lectura).

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Programa de mesa en C

52rrgbVbAoLXH4T23MfNqU 1200 80

Solución de rompecabezas de estatua de charco de sangre de Resident Evil Village