Как «выдёргивать» данные из PDF-файлов в Linux

pdf

Это руководство научит вас извлекать изображения и текст из PDF-файлов.

Для начала давайте установим необходимые утилиты:

— Ubuntu:

sudo apt-get install poppler-utils

— Fedora:

sudo yum install poppler-utils

Для других Linux найдите poppler-utils в вашем пакетном менеджере

Следующая команда извлечёт все изображения из документа «pdffile.pdf» и поместит их в директорию /home/пользователь/pdfimages/:

pdfimages -j pdffile.pdf ~/pdfimages/

JPEG-файлы будут сохранены с расширением PPM через pdfimages, если вы не включите в команду параметр «-j» (для JPEG).

Преимущество pdfimages в том, что он извлекает оригинальные изображения, как они встроены в PDF. Это очень полезно.

А следующая команда извлечёт весь текст и поместит файл с таким же именем, как PDF, но с расширением TXT (pdffile.txt) в ту же директорию, как начальный файл

pdftotext pdffile.pdf