С отвращением обнаружил,

Feb 21, 2022 07:52

что файлы pdf - не фотографические копии текста. Там, где компьютер не может разобрать букву в старой книге, он подставляет свою собственную похожим шрифтом, и создает при этом множество опечаток. h/b, c/e, n/u и т. д.
Вот картинка из файла pdf:

Read more... )

открытия

Leave a comment

Comments 8

_meskalito_ February 21 2022, 13:06:50 UTC
экономят на объеме файла
думаю эта опция отключается где то

но тогда это будет просто картинка и весить будет соответственно по 2-3мб на лист и это без цвета

Reply


utnapishti February 21 2022, 13:16:20 UTC
Мне кажется, это "опционально": можно отсканнировать (например) страницу из книги в pdf просто как изображение, без каких-либо попыток распознать текст; а можно включить optical character recognition, чтобы pdf был searchable. Вероятно, в этом втором случае он подгоняет изображение под то, что он там распознал. Но в первом случае такое (естественно) не должно происходить.
Короче, если Вы сканнируете лично, то keywords = "disable OCR".

Reply

seminarist February 21 2022, 13:27:24 UTC
Ах, если бы я сканировал лично, мне бы и сканировать было незачем. Ведь сканировать можно только то, что у тебя уже есть.

Reply

langsamer February 21 2022, 13:27:40 UTC
Даже в первом случае, - сканировать-печатать, - возможны нюансы: https://www.computerra.ru/183468/jbig2/

Reply

seminarist February 21 2022, 13:32:51 UTC
Однако.

Reply


ermenegilda February 22 2022, 04:43:47 UTC
Ого, в 1852 году уже/еще астрологи были. Интересно, что Толстой, Достоевский, Чехов смеялись над спиритами, но про астрологию у них ни слова.

Reply


Leave a comment

Up