download.bg
 Вход Списание  Новини  Програми  Статии  Форум  Чат   Абонамент  Топ95   Архив 

Извличане на текст от PDF (сканиран документ)

Автор
Съобщение
anonymous
Сря, 10.10.12, 20:46
Търся информация/упътване как да извлека текст от сканиран документ.
Става дума за материал даден от един от доцентите от университета, който обаче бе предоставен на хартиен носител за ксерокопиране. Колега, разполагащ със скенер, реши да сканира всичките 300 стр. "преписни" от трудовете не чуждестранни преподаватели, за да ни спести главоболието със ксерокопиране на такъв материал за всички 170 човека от потока (само може да си направите колко хартия би се похабила за такова начинание).
НО възниква лек недостатък - самият факт, че хартиеният носител, с който разполагахме е ксерокопие и последващото сканиране намалиха контраста и текстът стана малко труден за четене.

За това търся начин за копиране на текста от PDF-файла направен колегата.
Самият PDF е съставен от изображения (на сканираните страници) и опцията с просто маркиране на текста не дава резултат.

*При нужда мога да предоставя файла, но за сега няма да го правя тъй като ще ми отнеме време качването (170 MB e).

stoqncho
Сря, 10.10.12, 21:58

RE: RE: Извличане на текст от PDF (сканиран документ)

С две ръце за тази програма.

Има Portable ABBYY FineReader 11.0.102.583 Professional Edition и Sandboxie, ако случайно има вируси.

И в Google Docs имаше OCR опция, но нещо не я намирам.

Edit: Оптично разпознаване на символи и на български с Google Docs

редактиран от stoqncho на 11.10.12 01:35
spursy
Сря, 10.10.12, 23:22
anonymous
Сря, 10.10.12, 23:33
От някакъв друг форум разбрах за ABBYY и го пробвах, но след 30 мин. 100% използване на процесора изплю нещо, което трябва да претърпи основна редакция чрез сравнение с оригиналния текст т.е. прекалено много не разчетени думи, изречения и дори цели абзаци.
Ще пробвам другата програма, но ако трябва ще прегледам и резултата с ABBYY .
Ето файла с учебника:
 http://dox.bg/files/dw?a=9046c32dbc

редакция: Зачетох първата страница от творението на ABBYY и определено ни се струва чакането половин час тъй като беше изсмукало всички ресурси на компютъра.
Може би професионалист, който се е занимавал и познава тънкостите на програмата ще го направи по-добре, но аз не мога.

редактиран от anonymous на 10.10.12 23:42
anonymous
Чет, 11.10.12, 08:23
Благодаря за опитите и съветите. И аз се сетих след едно преспиване, че сигурно резолюцията е проблем.

Явно ще търсим друго копие на учебника и ще накараме някой друг колега пробва сканиране, а и ще му кажем този път да го прави през ABBYY поне да може да се търси в текста и т.н.

Коментар

за нас | за разработчици | за реклама | станете автори | in english  © 1998-2024   Experta Ltd.