Руководства

Как "выдёргивать" данные из PDF-файлов в Linux

pdf

Это руководство научит вас извлекать изображения и текст из PDF-файлов.

Для начала давайте установим необходимые утилиты:

- Ubuntu:

sudo apt-get install poppler-utils

- Fedora:

sudo yum install poppler-utils

Для других Linux найдите poppler-utils в вашем пакетном менеджере

Следующая команда извлечёт все изображения из документа "pdffile.pdf" и поместит их в директорию /home/пользователь/pdfimages/:

pdfimages -j pdffile.pdf ~/pdfimages/

JPEG-файлы будут сохранены с расширением PPM через pdfimages, если вы не включите в команду параметр "-j" (для JPEG).

Преимущество pdfimages в том, что он извлекает оригинальные изображения, как они встроены в PDF. Это очень полезно.

А следующая команда извлечёт весь текст и поместит файл с таким же именем, как PDF, но с расширением TXT (pdffile.txt) в ту же директорию, как начальный файл

pdftotext pdffile.pdf

Добавить комментарий


Защитный код
Обновить

Аккаунт



Подпишись на нашу RSS

Go to top