Это руководство научит вас извлекать изображения и текст из PDF-файлов.
Для начала давайте установим необходимые утилиты:
— Ubuntu:
sudo apt-get install poppler-utils
— Fedora:
sudo yum install poppler-utils
Для других Linux найдите poppler-utils в вашем пакетном менеджере
Следующая команда извлечёт все изображения из документа «pdffile.pdf» и поместит их в директорию /home/пользователь/pdfimages/:
pdfimages -j pdffile.pdf ~/pdfimages/
JPEG-файлы будут сохранены с расширением PPM через pdfimages, если вы не включите в команду параметр «-j» (для JPEG).
Преимущество pdfimages в том, что он извлекает оригинальные изображения, как они встроены в PDF. Это очень полезно.
А следующая команда извлечёт весь текст и поместит файл с таким же именем, как PDF, но с расширением TXT (pdffile.txt) в ту же директорию, как начальный файл
pdftotext pdffile.pdf