dpsearch-4.54-2015-07-06

Jul 13, 2015 11:44


Выпущен новый снапшот DataparkSearch Engine версии 4.54. Вы можете скачать его с Google Drive.

Ниже дан список изменений с момента выпуска предыдущего снапшота:
  • Секция Crossword теперб включает значения аттрибута TITLE тэга IMG и значения атрибутов ALT и TITLE тэгов A и LINK, найденных на страницах, ссылающихся на индексируемый документ
  • Мета PROPERTY теперь индексируется
  • Мета-информация об URL теперь сохраняется для всех документов с HTTP статус-кодом < 400
  • configure скрипт теперь понимает ключ --without-libextractor, позволяющий собрать dpsearch без поддержки libextractor даже если эта библиотека установлена
  • Включена поддержка robots.txt для сайтов, индексируемых с использованием HTTPS
  • Добавлена команда AuthPing, позволяющая посылать авторизационные запросы перед началом индексирования сайта. См. детали ниже.
  • Добавлена команда Cookie
  • Добавлена поддержка SOCKS5 прокси серверов без авторизации или с использованием авторизации по логину и паролю. См. детали ниже.
  • небольшие исправления


Команда AuthPing

Некогторые сайтв могут отдавать немного измененный контент для зарегистрированных пользователей, например, указывать цену товара со специальной скидкой. В большинстве случаев, процесс входа на сайт заключается в отправке POST или GET HTTP-запроса на определенный URL перед тем, как вы станете получать таргетированный контент. Вы можете испольовать команду AuthPing для отправки такого идентификационного запроса перед запросом документов с этого сайта.

Например:
AuthPing "POST https://commercial-site.ext.au/user/login.php u=bot%40user.ext.au&p=super%40pass"
Эта команда задает отправку POST запроса на URL адрес https://commercial-site.ext.au/user/login.php со следующими данными CGI: u=bot%40user.ext.au&p=super%40pass

Команда AuthPing должна быть указана перед каждой командой Server/Realm/Subnet, на которую она должна воздействовать. И указанный в ней запрос будет посыдаться всякий раз, когда индексирующий поток пытается обратиться к сайте впервые с момента запуска indexer.
Использование SOCKS5 прокси

Команда Proxy теперь понимает опцию, задающую тип прокси-сервера, значение которой может быть http или socks5. Если вам нужна идентификация на SOCKS5 прокси при помощи логина и пароля, вы можете использовать команду ProxyAuthBasic для указания логина и пароля.

Например:

Proxy socks5 localhost:9050
В этоим примере задается подключение к SOCKS5 прокси системы Tor, работающей на локальной машине без использования идентификации.

Originally published at СоНоты. You can comment here or there.

dataparksearch

Previous post Next post
Up