Know-how: Конфетка - из съеденного Яндексом в наших блогах

Jan 09, 2006 05:13


Жил был в Яндексе - Паук. Сетевой демон. «Обходчик»: живых журналов, форумов, блогов… Машинка, которая фиксирует всё новое появляющееся в этих источниках и добавляющая проиндексированные абзацы в базу данных. По прихоти своих хозяев делающая это - ради функционирования блог-поискового механизма. И, кажется, всегда так было?… Клал паук клал, ( Read more... )

blog, сми, интернет, know-how, lj

Leave a comment

Comments 39

krass January 9 2006, 02:44:16 UTC
дядя, на чью мельницу воду льешь? ))

Reply

illyn January 9 2006, 02:50:42 UTC
Тссссссс!
Это же про общедоступный для всех желающих, а не для ГБ - Эшелон (система слежения за людьми в сети)

Тсссссссс!

Reply


father_gorry January 9 2006, 02:51:25 UTC
похоже, ты напророчил очень серьезную фишку...

Reply

illyn January 9 2006, 02:57:18 UTC
Лейбов просил. Не могу отказать.
Прикинь, что странно - у этой истории есть обалденное продолжение - но! Мне лень его сейчас спъяну писать. Вот ведь...

Reply


gray_ru January 9 2006, 08:14:40 UTC
Мысль не нова, но там не все так просто.

Reply

illyn January 9 2006, 12:32:12 UTC
Например? Что является проблемой?

Reply

Re: gray_ru January 9 2006, 20:42:55 UTC
Мусора много выходит. Хотя мысли есть, как этот мусор ликвидировать, и
они обсуждаются.

Reply

Re: illyn January 10 2006, 03:50:34 UTC
Спамить ещё потенциально можно, через бесплатные службы типа ЖЖ и автоматом заводимые в них журналы содержащие примерно один и тот же подготовленный текстик. Тоже надо думать, что с этим делать…

Reply


artreal January 9 2006, 10:21:41 UTC
Кластеризация в Яндекс.Новости хорошо работет, потомучта 50% новостей пишутся методом copy&paste, а 80% новостей используют одни и те же ключевые фразы. ;)
В случае с Яндекс.Блогс дальняя кластеризация пока требует слишком много ресурсов и имеет малую точность.

Reply

illyn January 9 2006, 12:16:31 UTC
Но учитывая, что в день нужно собрать не так много сообщений… (ведь всё заинтересовавшее надо ещё сходить откоментировать, ввязаться в обсуждение возможно) - …

Reply

artreal January 10 2006, 05:49:30 UTC
Фигу. Обработать 1000 значений - это значительно легче, чем 10 000. Второй фактор - это стилистика и морфология, особенность построения фраз, объем словаря, etc. В случае с новостными источниками и lj это настолько сильно отличается, что алгоритм кластеризации (и алгоритм автоматической классификации), написанный для новостных источников, с lj работать не будет. А универсального алгоритма (способного правильно учесть кучу факторов) пока не видно.
Третий фактор - это особенности хранения информации в поисковых системах. Тот же гугль, например, еще не дошел до создания виртуального кластера на межкластерном пространстве.

Reply

Ой artreal January 10 2006, 05:50:24 UTC
Не "1000 значений", а "1000 источников"

Reply


al_wolf January 9 2006, 19:49:59 UTC
кое-что из перечисленного реализовано в Google News :) Среди блогов тоже можно организовать что-то типа Яндекс Новостей, но, как было справедливо замечено в комментариях, будут проблемы с кластеризацией сообщений. Да и обычного фуфла в блогосфере выше крыши, хотя она еще в зачаточном стостоянии. Но мысли довольно интересные - надо бы действительно почесать репу на эту тему!

P.S. Говорил же, что ты идейный человек!

Reply

illyn January 10 2006, 00:18:27 UTC
По-моему Google News - их вариант Яндекс.Новостей. Я не вижу там блогов… может быть на первый взгляд.

Reply

al_wolf January 10 2006, 02:32:32 UTC
только что проверил специально - есть там блоги :) правда очень мало (у них - Google - там дичайший ценз для блогов установлен)

Reply

illyn January 10 2006, 03:42:25 UTC
Вообще конечно, если подумать - могут быть (сам не увидел, ну да ладно). В прошлом году ЖЖ Ольшанского, например, был примерно 600-ым СМИ в мире по некоторым оценкам. Хотя и был ЖЖ.

Reply


Leave a comment

Up