ad cremandum, или как помочь проекту изучения научных трудов единороссов

Feb 12, 2013 12:51


Как оказалось, записаться в Ленинку - совсем не мучительный процесс. Давно, лет десять назад я был уже записан в Ленинке - я писал тогда реферат по философии для аспирантского экзамена и читал там Хайдеггера, которого в читалке в первом Гуме было не достать в оригинале. Но с тех пор читательский мой протух; впрочем, чтобы записаться снова, мне потребовалось всего полчаса рабочего времени, паспорт и диплом кандидата наук (последний нужен лишь для "приписки" к читальному залу №1, в который при ancien regime допускали только профессоров и докторов наук).

Электроннная база диссертаций Ленинки находится по адресу https://dvs.rsl.ru. Имея читательский билет Ленинки и зная день рождения его владельца (который используется как пароль в формате ддммгггг) можно уже, совершенно безвозмездно (то есть, даром) производить поиск в системе и просматривать первые 10% текста диссертаций. Это позволяет произвести первичную - и очень важную - стадию работы: отсев лиц без ученых степеней, и отсев тех, кто написал явно хорошие, содержательные работы по нормальной науке. Далее, остающихся наших потенциальных клиентов можно проверить на наличие плагиата в этих 10% диссертаций, просто вбивая вручную фразы в гугл или яндекс. Я в своей работе исхожу из того критерия, что по крайней мере один случай плагиата я должен найти в этих 10%, чтобы запустить уже более сложную и накладную проверку всей работы. Но бывают и исключения: если работа "написана" автором, находившимся явно не в тех обстоятельствах, которые способствуют научному творчеству, а сам текст, хотя и напрямую ниоткуда не списан, производит впечатление какой-то околесицы, то наверное надо проверять и оставшуюся часть.

Для этого нужен полный доступ, который можно оформить здесь http://store.rsl.ru/

Итак, 3000 рублей Ленинка получила, и у нас есть доступ к 15 диссертациям в месяц на целый год. Их можно просматривать, листать, осуществлять внутритекстовый поиск (эта опция, кстати, полезна и в бесплатном режиме: вы можете видеть отрывки текста в результатах поиска, которые открыть вы можете, только открыв диссертацию на полный доступ.). Но скачать их, как мне объяснил программист Митя, совершенно невозможно. Поэтому здесь начинаются танцы с бубном.

Для начала нужно обзавестись программами

1. Скан кромсатор версия 5.6 http://biotex.ibss.org.ua/libsoft_profile.html?id=31

2. Скриншот кэптор http://www.donationcoder.com/Software/Mouser/screenshotcaptor/

3. Любая программа для распознавания и сшивания текстов.

Запускаем и настраиваем screenshotcaptor: идем в edit\preferences:

\saving and loading files

указываем ему, в какую папку сохранять файлы, больше ничего не меняем

\image file format

у меня стоит опция png, но это не догма; главное - НЕ jpg и не gif. А вот желающие поэкспериментировать с tiff могут это проделать. Я не делал.

Цветность - у меня truecolor, но я не уверен, что это правильно.

Важно! разрешение ставим 96 dpi! Для скриншотов фиксировано количество пикселей, а не физический размер (в отличие от сканов). Поэтому выставив большее разрешение вы качество не улучшите, а размер картинки уменьшите.

\interface options 1

выбираем Stay minimized - чтобы при изготовлении скрина не выскакивал диалог

Проверяем, что все работает: делаем несколько скриншотов кнопкой принтскрин, идем в указанный каталог, и смотрим, что там возникли файлы, поименованные временем их создания (например Screenshot - 07.02.2013 , 23_18_42.png)

Теперь открываем диссер на весь экран (нажимаем начок в браузере ленинки справа). В браузере ленинки есть  также кнопка перехода к ландшафтному режиму страницы, когда практически все пространство экрана занято текстом. Ею пользоваться не надо, так как придется вращать КАЖДУЮ страницу. Вместо этого переводим весь компьютер в ландшафтный режим. Это делается там же в настройках экрана, где меняется разрешение экрана. При этом монитор придется повернуть на 90 градусов, или самому перейти из положения сидя/стоя в положение лежа на боку. Ставим масштаб 140% в Ленинке. На немного неформатных диссерах можно выставить 120%. Важно проверить, что при листании нет ситуации, когда на части страниц буквы обрезаются, и что изображение не надо таскать мышкой. Если есть такая проблема, надо уменьшить масштаб. Важно, чтобы все файлы были сделаны в одном масштабе, и картинка лежала в одной и той же области экрана

Делаем скриншоты всех страниц диссера. Листать быстрее, чем 1 страница в 10-15 сек нельзя (ограничение Ленинки), поэтому есть смысл пролистывая читать каждую страницу - так находятся всякие смысловые несообразности в тексте, глупости и перлы. Один коллега тут утверждает, что он как-то научился листать тексты существенно быстрее; у меня не получается, да я и не хочу, потому что я испытываю высочайшее наслаждение от чтения этих перлов. Да, совет: если забыли, нажали или нет принтскрин - лучше нажать еще раз и потом убрать файл из списка в кромсаторе, чем потом возвращаться, вспоминать комбинацию всех параметров и делать штучные скрины.

Ну вот, у нас есть несколько сотен страничек. Но от них, прежде сшивки в электронную книгу, надо отрезать элементы управления и поля. Делается это СканКромсатором. Я разбирался с настройками этой программы часа три, поэтому рекомендую последовать инструкциям очень внимательно.

Открываем все файлы сразу с помощью file\open. На белом поле слева вверху появляется их список. Проверяем, что они упорядочились по алфавиту (= по времени создания, т.к. мы в скриншоткэпторе задавали такую опцию). На первый файл ставим зеленую галку. Выставляем слева во вкладках опции:

\pages убираем галки из deskew, despeckle, split

automargins OFF

\book  проверяем, что page width, page height auto, стоит галка use average width

\files указываем, куда сохранять файлы

можем указать output prefix, тогда файлы будут именоваться prefix 0001 итд.

Outputformat tiff uncompress (можно экспериментировать, я не пробовал другие)

dpi - я ставлю original.

color - ни в коем случае не чернобелый, я ставлю original, и не советую экспериментировать.

\options 2 "ONLY CUT" (абсолютно важно!)

Дальше самое главное: ВВЕРХУ СТРАНИЦЫ ВЫСТАВИТЬ ЧЕТЫРЕ ГАЛКИ против: Xl (две галки), Yt, Yb - это фиксирует вручную одинаково для всех страниц четыре резака. Дальше ВЫСТАВЛЯЕМ РЕЗАКИ: резаки по ширине находятся СНИЗУ, резаки по высоте - справа и слева. Ездящие штуки СВЕРХУ - НЕ НУЖНЫ, не знаю, что они такое и зачем.

Потом ставим курсор на первый файл в списке файлов вверху и листаем стрелочкой вниз файлы. Проверяем при этом, что:

резаки стоят на одном месте и не съезжают

текст на всех страничках в них попадает

нумерация страниц верная

нет лишних и нет пропущенных страниц

Проверили - можно нажать снизу кнопку apply up to current, и настройки обрезки тогда распространятся на все файлы. Все! теперь жмем Process наверху. Получаем через пару минут несколько сотен аккуратно обрезанных файлов. Проверяем, что у них нет лишних полей. Загоняем их в программу типа finereader, который сделает всю работу сам - в нем ничего не меняем. Сохраняем в пдф, ну и можно сразу и в ворд, что наверное имеет смысл - видны ошибки распознавания, и при вбивании в гугл их сразу исправляешь.

Тем, кто хочет проверять депутатов: мною к настоящему моменту проверены 78 единороссов (до буквы «З» включительно), и работа продолжается. Так что лучше, чтобы не делать двойной работы, пишите мне в приват, и я вам вышлю диапазон депутатов, по которому нужно работать. Отдельную неоценимую услугу проекту окажут те, кто пойдут в Ленинку, сделают читательский, оформят платный доступ и помогут в легальном скачивании. Также сильно помогут те, кто ленятся гуглить, но захотят осуществить само скачивание согласно вышеприведенной Инструкции - пишите в приват, напишу, кого качать. Другая форма  помощи проекту: знаете мерзавца из правящей партии, который, возможно, является плагиатором? Пишите в приват, поизучаем, разложим костерок.

партия плагиаторов и копипастеров

Previous post Next post
Up