gocr

Las siglas OCR signfican Optical Character Recognition, me han enviado un documento en pdf y he tenido la necesidad de convertir las imágenes en texto, sé que existe Acrobat Profesional… pero dado que estaba trabajando en linux busqué una utilería que me permitiera rápidamente hacer el reconocimiento de texto, ahí entra en juego gocr.

Es muy sencillo, primero convertimos el pdf en imágenes por separado con la instrucción:

pdfimages archivo.pdf foo-page

Esto nos generará varios archivos foo-page-###.ppm los cuáles son imágenes, ahora bien en consola nos vamos sobre los archivos de manera individual procesándolos con gocr de la siguiente manera:

for i in *ppm; do echo gocr $i; gocr $i > $i.txt; done

Y esto nos generará un archivo txt por cada imagen, lo único que resta es hacer un cat y concentrar todo en un solo archivo de texto, sencillo ¿no?.