Проектът OCRopus стартира през пролетта на тази година. Очаква се, че OCRopus ще бъде мощна многофункционална система, която ще се използва за разпознаване на обикновени и исторически документи, както и на ръкописен текст. Комплексът OCRopus ще може да се използва в различни научни организации, от археолози, историци, както и от всички други компютърни потребители, които имат нужда на прехвърлят текст от хартия във електронен формат.
Представената тези дни версия OCRopus 0.1.0 е построена въз основа на ядрото НР Tesseract. В пакета са реализирани няколко функции на сегментиране на текста и графиката. Продуктът на Google се разпространява под Apache License 2.0.
Сътрудници на ArsTechnica вече са изпробвали алфа-версията на OCRopus. Те отбелязват, че програмата не се справя достатъчно добре със своята задача. Системата за разпознаване на символи бърка символа "e" като буквата "c", а "o" се смята за нула. Освен това голямо влияние на качеството на крайния резултат оказва качеството на сканирането, както типа и размера на шрифта.
Впрочем, засега работата над пакета OCRopus не е завършена. Тези недостатъци вероятно ще бъдат отстранени във финалната версия на продукта. Бета-версията на OCRopus ще се появи към края на първото тримесечие на 2008 година.
Страница на проекта: http://www.ocropus.org/
Източник: Compulenta.ru