Tesseract — лучшая программа для конвертации изображений в текст для Ubuntu и Linux в целом. Я пробовал несколько OCR-приложений, но здесь точность значительно выше, чем в каких-либо других приложениях.
Tesseract — простая в использовании консаольная утилита. Это кросслплатформенное приложение с открытым кодом, и, конечно, бесплатное! Вы можете давать на вход различные форматы изображений, а конвертация возможна более чем для шестидесяти языков.
Устанавливаем Tesseract в Ubuntu / Linux
sudo apt-get install tesseract-ocr
В дальнейшем, если потребуется, вы легко сможете установить дополнительные языковые пакеты.
Теперь вы можете запустить Tesseract:
tesseract your_scanned_file.png output_content
Результат будет сохранён в файл output_content.txt. Если вы хотите произвести сканирование другого языка, определите его с помощью параметра -l. (и конечно, сначала вам придётся установить языковой пакет).
Например, для сканирования изображения, содержащего текст на хинди, используйте команду:
tesseract your_scanned_paper.png output_content -l hin