Есть на страничке что-то часто всречающееся - это ключевое слово. И таких слов несколько. По их комбинации смотрятся сетевые библиотеки - может быть есть что-то в литературе, подходящее. Есть - показывается. Нет - не показывается.
С простого надо начинать.
А потом уже. Отделив «принципы» от механизма вывода и сбора ссылок - принципы можно пробовать разные. Самодельные и покупные. Жёсткие и сильно случайные. Ну и так далее…
«Чёрный ящик». Берётся какая-либо страничка из произвольного сетевого магазина (найденного руками) - она отдаётся в Гугель, который не очень понятно, как-работает, но кнопку «похожие страницы» имеет. На неё и «нажимает» робот-обходчик. Ему выкидывают ещё кучу сайтов (тоже магазинов, как правило) на них он и идёт. Адреса url фиксирует (допустим корневые), с этих новых магазинов опять берёт и идёт по другим «похожим страницам» вытащенным из гугла. Внутри найденного магазина можно делать переходы на «другие товары» и искать похожие страницы уже для них.
Проект «Яндекс.Новости в лицах» основан на технологии, разработанной компанией «Интегрум». Главной особенностью программы, анализирующей тексты новостей, является отсутствие заранее заданного списка персон: при обработке сообщения программа самостоятельно находит в тексте имена и фамилии и добавляет их в рейтинг.
Да, допустим через него. А для сайта (другого классического поисковика допустим) у которого открытого api нет - можно и просто традиционный запрос "как бы из браузера" организовать в фоне, результаты выданные в виде html от сайта получить, на лету расчистить и преобразовать в вид удобный для вывода в панельку.
(The comment has been removed)
Есть на страничке что-то часто всречающееся - это ключевое слово. И таких слов несколько. По их комбинации смотрятся сетевые библиотеки - может быть есть что-то в литературе, подходящее. Есть - показывается. Нет - не показывается.
С простого надо начинать.
А потом уже. Отделив «принципы» от механизма вывода и сбора ссылок - принципы можно пробовать разные. Самодельные и покупные. Жёсткие и сильно случайные. Ну и так далее…
Reply
(The comment has been removed)
Reply
(The comment has been removed)
Reply
(The comment has been removed)
«Чёрный ящик». Берётся какая-либо страничка из произвольного сетевого магазина (найденного руками) - она отдаётся в Гугель, который не очень понятно, как-работает, но кнопку «похожие страницы» имеет. На неё и «нажимает» робот-обходчик. Ему выкидывают ещё кучу сайтов (тоже магазинов, как правило) на них он и идёт. Адреса url фиксирует (допустим корневые), с этих новых магазинов опять берёт и идёт по другим «похожим страницам» вытащенным из гугла. Внутри найденного магазина можно делать переходы на «другие товары» и искать похожие страницы уже для них.
Reply
Reply
Проект «Яндекс.Новости в лицах» основан на технологии, разработанной компанией «Интегрум». Главной особенностью программы, анализирующей тексты новостей, является отсутствие заранее заданного списка персон: при обработке сообщения программа самостоятельно находит в тексте имена и фамилии и добавляет их в рейтинг.
Можно её прикручивать.
Reply
(The comment has been removed)
А для сайта (другого классического поисковика допустим) у которого открытого api нет - можно и просто традиционный запрос "как бы из браузера" организовать в фоне, результаты выданные в виде html от сайта получить, на лету расчистить и преобразовать в вид удобный для вывода в панельку.
Но через api конечно логичнее, элегантнее.
Reply
Leave a comment