martes, 27 de septiembre de 2011

CONVERTIR FICHERO PDF CON IMAGENES EN TEXTO: CONVERT GOCR

Script que coge un fichero pdf con imagenes, y las transforma en texto.

#max=Numero de hojas del pdf
max=404
> convertido.txt
for i in $(seq $max);do
echo "Convirtiendo pagina: $i de $max"
if [ ! -f imagen-$i.jpg ];then
convert -density 300 libro.pdf[$i-$i] imagen-$i.jpg
fi
gocr imagen-$i.jpg >> convertido.txt
done