Как читать иноязычные сайты и иноязычную литературу с распознаванием текста OCR и быстрым переводом.

Apr 20, 2014 18:37

Я думаю, что будет очень не лишним для многих, в том числе и для Свидетелей Иеговы (да и других читателей моих блогов), если я покажу несколько приёмов, которые позволят многим знакомиться с иноязычными сайтами, форумами, их содержанием, а также с отсканированной в картинках или отсканированной в PDF старой литературой и документами. Если кто-то хочет почитать и исследовать те же старые книги, документы о Свидетелях Иеговы или какие-то другие - эти советы и простые шаги могут сделать это доступным и несложным, если даже человек не знает хорошо иностранного языка (или знает очень посредственно). Я могу сказать, что я проверял в отношении англоязычных ресурсов и книг, работает все очень даже хорошо, хотя иногда бывают отклонения, о которых я упомяну вскользь.

Итак. Например, у Вас возникло желание быстро ознакомиться с содержанием документа, статьи, книги. При этом Вы не знаете исходного языка (например, английского) или объем информации для вычитывания очень велик. Что тогда делать? Как удобнее воспользоваться онлайн ресурсами, онлайн переводчиками, чтобы было быстро, удобно, занимало меньше времени?

Я специально сделал скрины, чтобы все было наглядно. Краткие пояснения вставляю по ходу.

Сначала узнаем кое-какие свойства Гугл-переводчика и Яндекс-переводчика. Для начала - как переводить сайт (страницы) или форум? Иногда в браузере уже предлагаются плагины, чтобы нажатием одной кнопки это сделать. Но можно и иначе. Показываю.

Сначала ищем и открываем Гугл-переводчик.









Итак, мы его открыли (первые скрины для тех, кто забыл, как открыть). Можно его сохранить на панели закладок, чтобы было удобнее пользоваться.

У нас есть ДВА поля. Оригинальный текст - Перевод. Выставлям нужный язык иногда можно нажать "Определить язык" (но бывает, что определяет не верно). Лучше вручную. Второе поле - выставляем НУЖНЫЙ нам язык, чтобы читать перевод. И вот тут начинается самое интересное.

В поле ИСХОДНОГО ТЕКСТА можно ввести как САМ ТЕКСТ, ТАК И ССЫЛКУ НА РЕСУРС (СТРАНИЦУ, ФОРУМ), КОТОРЫЙ НУЖНО ПЕРЕВОДИТЬ.



В поле ПЕРЕВОДА появляется также ССЫЛКА. Просто кликаем на неё.



Иногда нужно отключить "защищенное соединение", если лень или не получается, то можно воспользоваться другим браузером.



Я выделил рамками нужные поля. В строке поиска переводчика стоит адрес страницы (ресурса) для перевода. В двух других - выставлены нужные ЯЗЫКИ - исходный и нужный на выходе.

Перевод иногда корявый, но от автоматического переводчика идеала ожидать сложно. Он же автомат. Робот.

То есть в результате мы получили страницу уже с переводом. Если идти по ссылкам дальше, то страницы будут переводиться согласно установкам.

Аналогично работает Яндекс-Перевод.





Теперь переходим к ресурсу для чтения бумажных книг, документов, которые были переведны в отсканированный "картиночный" вид. Где можно это сделать и как?

Я пользуюсь одним ресурсом, который мне понравился. Он бесплатен, удобен, работает очень шустро и хорошо. Качество очень даже. Потому покажу как им пользоваться. Вот его адрес: http://www.newocr.com/ Пока он бесплатен. А как будет дальше - мне не ведомо.

Ресурс обединяет в себе: 1. Распознавание текста. 2. Быстрый переход к переводчикам. 3. Копирование распознанного текста в нужный формат офисных документов. То есть то, что нам и нужно. Показываю.



Файл для распознавания можно загружать как с компа, так и по ссылке на документ в интернете. Стрелками показаны нужные поля. Или выбираем файл документа\книги на компе, или вставляем на него непосредственно ссылку (PDF, JPG или другие форматы). Выставляем ЯЗЫК ДОКУМЕНТА (а не язык, который нам нужен, это потом) и жмем нижнюю кнопку UPLOAD (загрузки)



Если документ (страницы книги) написаны на инглише - выставляем инглиш.



Появляется в поле текста 1-я страница документа. Белое поле - это поле для РАСПОЗНАВАНИЯ ТЕКСТА. Обычно программа определяет его автоматически, но иногда очень важно его поправлять вручную. Особенно, если есть некие столбики или текст разделен на части (например много статей как в газете). Если страница заполнена без разделений можно особо не передвигать ничего.



Красные стрелки - это точки для движения (сужения или расширения, короче изменения) поля распознавания. После изменений (передвижения границ поля) жмем синюю кнопку OCR (распознать текст).



Прокручиваем чуть вниз. Там появляется поле с распознанным текстом. И рядом кнопок. Сразу скажу, что некоторые документы распознаются сразу, при загрузке (или их части). Но те, которые на картинках - нужно постранично. Поля тут на картинке обрезаны, они больше по размеру.

Обращаем внимание на ТРИ КНОПКИ в данный момент. Кнопка COPY - копирует в буфер обмена, можно вручную потом просто ВСТАВИТЬ текст из поля, где перевод. Две другие - это кнопки быстрого перехода к ПЕРЕВОДУ разных переводчиков. Один Гугл, другой Bing. Одним кликом можно сразу прочесть перевод распознанного текста.



Я привожу примерный результат (текст тут не полностью). То есть, мы получили уже переведенную страницу Гугл-переводчиком (или Bing-ом)



Далее выбираем следующую нужную страницу (по номеру) из списка. В данном документе всего 2 страницы, но в книге их могут быть десятки и сотни. Также и на одной странице скана иногда бывает 2-3 столбика или много мелких статей. Придется распознавать их отдельно. Иначе не получится. Будет каша в результатах. Заголовки могут не распознаваться корректно.

Если документ или публикация плохого качества (или бумага какого-то НЕ-белого цвета) могут быть проблемы с распознаванием. Все можно корректировать вручную, если нужно.



Последнее, что тут можно упомянуть, это сохранение распознанного текста в одном из форматов документов. Жмете, выбираете, сохраняете.
  Очень просто и довольно удобно.

О чём стоит ещё упомянуть? Что при пользовании данным сервисом нужно вставлять ССЫЛКУ НА ОРИГИНАЛЬНЫЙ ДОКУМЕНТ (если он-лайн). То есть, если Вы читаете по ссылкам через переводчик на русском - там идут в адресной строке другие ссылки, включающие в себя оригинальную. Потому или вытаскивайте её оттуда, или открывайте в оригинальном варианте. Ниже показан оригинал и выделена ссылка.



Надеюсь, что пара данных сервисов и умение ими пользоваться помогут вам узнать больше даже имея некоторые трудности с иностранным языком. Всем интересного чтения)

Вот несколько англоязычных ресурсов о Свидетелях Иеговы, с документами и старой литературой организации, обсуждениями. Потом буду выкладывать ещё.

http://www.watchtowerdocuments.com

http://www.jehovahs-witness.net

http://www.jehovahs-witness.com/

http://jwleaks.org/

http://jwsurvey.org/

Перейти к Оглавлению блога.

Англоязычные ресурсы о СИ

Previous post Next post
Up