Извличане на текст от PDF (сканиран документ)

Автор

Съобщение

anonymous
Сря, 10.10.12, 20:46

Търся информация/упътване как да извлека текст от сканиран документ.
Става дума за материал даден от един от доцентите от университета, който обаче бе предоставен на хартиен носител за ксерокопиране. Колега, разполагащ със скенер, реши да сканира всичките 300 стр. "преписни" от трудовете не чуждестранни преподаватели, за да ни спести главоболието със ксерокопиране на такъв материал за всички 170 човека от потока (само може да си направите колко хартия би се похабила за такова начинание).
НО възниква лек недостатък - самият факт, че хартиеният носител, с който разполагахме е ксерокопие и последващото сканиране намалиха контраста и текстът стана малко труден за четене.
За това търся начин за копиране на текста от PDF-файла направен колегата.
Самият PDF е съставен от изображения (на сканираните страници) и опцията с просто маркиране на текста не дава резултат.
*При нужда мога да предоставя файла, но за сега няма да го правя тъй като ще ми отнеме време качването (170 MB e).
Отговор За печат
stoqncho
Сря, 10.10.12, 21:58
RE: RE: Извличане на текст от PDF (сканиран документ)

Цитат на 3246 от Сряда, 10.10.2012 21:05
” ABBYY FineReader Professional Edition „
С две ръце за тази програма.
Има Portable ABBYY FineReader 11.0.102.583 Professional Edition и Sandboxie, ако случайно има вируси.
И в Google Docs имаше OCR опция, но нещо не я намирам.
Edit: Оптично разпознаване на символи и на български с Google Docs
редактиран от stoqncho на 11.10.12 01:35
Отговор За печат
spursy
Сря, 10.10.12, 23:22

Без преписване с CuneiForm
Отговор За печат
anonymous
Сря, 10.10.12, 23:33

От някакъв друг форум разбрах за ABBYY и го пробвах, но след 30 мин. 100% използване на процесора изплю нещо, което трябва да претърпи основна редакция чрез сравнение с оригиналния текст т.е. прекалено много не разчетени думи, изречения и дори цели абзаци.
Ще пробвам другата програма, но ако трябва ще прегледам и резултата с ABBYY .
Ето файла с учебника:
http://dox.bg/files/dw?a=9046c32dbc
редакция: Зачетох първата страница от творението на ABBYY и определено ни се струва чакането половин час тъй като беше изсмукало всички ресурси на компютъра.
Може би професионалист, който се е занимавал и познава тънкостите на програмата ще го направи по-добре, но аз не мога.
редактиран от anonymous на 10.10.12 23:42
Отговор За печат
anonymous
Чет, 11.10.12, 08:23

Благодаря за опитите и съветите. И аз се сетих след едно преспиване, че сигурно резолюцията е проблем.
Явно ще търсим друго копие на учебника и ще накараме някой друг колега пробва сканиране, а и ще му кажем този път да го прави през ABBYY поне да може да се търси в текста и т.н.
Отговор За печат

Коментар

за нас | за разработчици | за реклама | станете автори | in english

Форум » Системни администратори и хакери » Извличане на текст от PDF (сканиран документ)

Извличане на текст от PDF (сканиран документ)

RE: RE: Извличане на текст от PDF (сканиран документ)