Open Google-проект Tesseract-OCR теперь на русском

0
156

Исходные коды OCR-движка Tesseract были опубликованы компанией HP ещё в 2005 году. К тому времени проект уже 10 лет не развивался и сильно уступал своим конкурентам. Однако проект был “подхвачен” компанией Google, которая на днях объявила о выпуске третьей версии Tesseract.

Среди усовершенствований новой версии – новый модуль анализа оформления страниц, поддержка открытого стандарта представления OCR-информации hOCR, поддержка библиотеки leptonica для выполнения операций, связанных с обработкой изображений.

Однако главная новость для российских пользователей заключается в том, что Tesseract теперь поддерживает русский язык. До недавнего времени единственной свободной OCR-системой с поддержкой русского языка было ПО CuneiForm, открытое российским разработчиком Cognitive Technologies в 2008 году. Изначально CuneiForm был доступен только в версии для MS Windows, но сегодня уже существуют графические оболочки для использования CuneiForm из среды Linux (существуют графические оболочки Cuneiform-Qt и YAGF).

Инструкция по установке Tesseract в средах Windows и UNIX доступна на сайте проекта.

источник

: Поисковые системы, Системы
: , , ,

Нашел ошибку в тексте? Выдели текст, нажми CTRL+Enter и пришли нам - мы исправим!