Open Google-проект Tesseract-OCR теперь на русском

05.10.2010
Автор:

Исходные коды OCR-движка Tesseract были опубликованы компанией ещё в 2005 году. К тому времени проект уже 10 лет не развивался и сильно уступал своим конкурентам. Однако проект был “подхвачен” компанией , которая на днях объявила о выпуске третьей версии Tesseract.

Среди усовершенствований новой версии – новый модуль анализа оформления страниц, поддержка открытого стандарта представления OCR-информации hOCR, поддержка библиотеки leptonica для выполнения операций, связанных с обработкой изображений.

Однако главная новость для российских пользователей заключается в том, что Tesseract теперь поддерживает русский язык. До недавнего времени единственной свободной OCR-системой с поддержкой русского языка было ПО CuneiForm, открытое российским разработчиком Cognitive Technologies в 2008 году. Изначально CuneiForm был доступен только в версии для MS Windows, но сегодня уже существуют графические оболочки для использования CuneiForm из среды Linux (существуют графические оболочки Cuneiform-Qt и YAGF).

Инструкция по установке Tesseract в средах Windows и UNIX доступна на сайте проекта.

источник

Тэги:

Если вы нашли ошибку в тексте, выделите его и нажмите Ctrl+Enter.


Техноблог IT Новостина
Также читайте на Техноблоге IT Новости:

MarketGid

SELECTORNEWS

SELECTORNEWS

СМИ2

Главпорт

Загрузка...

Календарь

Октябрь 2010
Пн Вт Ср Чт Пт Сб Вс
« Сен   Ноя »
 123
45678910
11121314151617
18192021222324
25262728293031

Архивы

Подробный прогноз погоды можно посмотреть тут, погода для всех областей Украины.
Ищешь работу в Киеве? Большая база вакансий здесь!