Comments | seminarist: С отвращением обнаружил,

seminarist

С отвращением обнаружил,

Feb 21, 2022 07:52

что файлы pdf - не фотографические копии текста. Там, где компьютер не может разобрать букву в старой книге, он подставляет свою собственную похожим шрифтом, и создает при этом множество опечаток. h/b, c/e, n/u и т. д.
Вот картинка из файла pdf:

( Read more... )

открытия

Comments 8

_meskalito_ February 21 2022, 13:06:50 UTC

экономят на объеме файла
думаю эта опция отключается где то

но тогда это будет просто картинка и весить будет соответственно по 2-3мб на лист и это без цвета

utnapishti February 21 2022, 13:16:20 UTC

Мне кажется, это "опционально": можно отсканнировать (например) страницу из книги в pdf просто как изображение, без каких-либо попыток распознать текст; а можно включить optical character recognition, чтобы pdf был searchable. Вероятно, в этом втором случае он подгоняет изображение под то, что он там распознал. Но в первом случае такое (естественно) не должно происходить.
Короче, если Вы сканнируете лично, то keywords = "disable OCR".

seminarist February 21 2022, 13:27:24 UTC

Ах, если бы я сканировал лично, мне бы и сканировать было незачем. Ведь сканировать можно только то, что у тебя уже есть.

langsamer February 21 2022, 13:27:40 UTC

Даже в первом случае, - сканировать-печатать, - возможны нюансы: https://www.computerra.ru/183468/jbig2/

seminarist February 21 2022, 13:32:51 UTC

Однако.

Thread 6

ermenegilda February 22 2022, 04:43:47 UTC

Ого, в 1852 году уже/еще астрологи были. Интересно, что Толстой, Достоевский, Чехов смеялись над спиритами, но про астрологию у них ни слова.