О поиске в интернете

Oct 21, 2024 12:24


Сегодня с утра в ленте два поста почти подряд на тему «Web 2.0 всё»: первая от уважаемого snake_d_ha и вторая от не менее уважаемого pyshch. А следом ещё и статья на Хабре о том, как убили поисковый движок Google.
В целом понятно, кто виноват: написание содержательных текстов требует огромных трудозатрат, но очень плохо монетизируется. И хороший поиск по ним - ( Read more... )

ЭВМ, за жизнь

Leave a comment

Comments 22

iv_an_ru October 21 2024, 09:31:24 UTC
Гугл уже поставлял "локальные гуглы" --- жёлные такие 2U ящики с предустановленным краулером, индексером и веб-мордой, можно было сделать поисковик для интранета с внутренними документами компании, можно было смешать с внешними поисками и т.д. Потом вроде свернул.

(Что забавно, с этой задачи Гугл как раз и начинал --- первая пара посевных мегабаксов была от ЦРУ за как раз такие ящики.)

Reply

hardsign October 21 2024, 09:48:45 UTC
Ну вот, новое - оно хорошо забытое старое :)

Довесок: вот опять же сегодняшняя прелесть с Хабра.

Reply


alll October 21 2024, 09:47:21 UTC

> ответ за 10 секунд не намного хуже ответа за полсекунды

Оно конешно... Только даже 1/20 (или даже 1/100) от мощностей поисковика гугла в гараж скорее всего не поместится.

В принципе можно наверное сделать поисковик поверх поисковых выдач гугла-и-всех-всех-всех...

С другой стороны как минимум у снейка упор скорее на то, что [некоторые] соцсети в принципе на пускают к себе краулеры, хоть из гугла, хоть из гаража. Да и вдобавок (это уже по моему опыту) прочитать текст из соцсети тоже частенько могут не дать (или дать не полностью) без регистрации или вообще "во френдах".

Reply

hardsign October 21 2024, 09:51:29 UTC
На практике нужно гораздо меньше. Мы же делаем индекс не для любой домохозяйки, а для лиц, чей круг интересов нам приблизительно известен.

> соцсети в принципе на пускают к себе краулеры

Ну если не пытаться утащить всё подряд, то можно достаточно убедительно сэмулировать поведение человека. Ну а «для френдов» - да, известная проблема, с этим ничего не сделаешь.

Reply

alll October 21 2024, 11:55:27 UTC

> можно достаточно убедительно сэмулировать поведение человека

Эдак выйдет крайне странный веб 2-0, кмк. С заглушками "вам этого не надо, маленький большой брат знает лучше" в самых интересных местах.

Reply

hardsign October 21 2024, 12:18:34 UTC
Ну с этим ничего не сделаешь. И то - робота можно заставить читать не ленту, а каждого «френда» в отдельности, формируя уже нормальную ленту.

Reply


uhum_buheev October 21 2024, 10:03:52 UTC
Платные поисковики уже есть, напр kagi.com, но нейронки на сегодня ищут зачастую даже лучше, в зависимости от задачи.

Но там скорее шла речь о потере прозрачности сети - никому не хочется делать информацию доступной для всех. Это фундаментальная проблема даже на уровне одной отдельно взятой организации, я "информационной интеграцией" 20 лет занимаюсь. Сколько не пытайся интегрировать и централизовать ИТ-системы, сколько не издавай страшных приказов "с самого верха", в реальной жизни люди не хотят делиться информацией. Помню, на конференции болтал с одним специалистом, чья фирма была ангажирована американской армией в попытке создать работающую enterprise architecture framework, с предсказуемым результатом )

Reply

hardsign October 21 2024, 11:08:53 UTC
Какая разница, нейронка или PageRank. Главное, чтобы в ответ на запрос выдавала ссылку на реальный документ, а под капотом может быть всё, что угодно - хоть ElasticSearch :))

> в реальной жизни люди не хотят делиться информацией

Да, это серьёзная проблема. Но тем не менее, иногда что-то проскакивает. Вопрос только, как научить поисковик или ту же нейронку обращать внимание на такие «проскоки» - ведь даже они могут оказаться ценными.

Reply


permea_kra October 21 2024, 11:50:57 UTC

>Платный поиск не взлетит: Google и Яндекс по-прежнему достаточно хороши, и большинство пользователей предпочтёт похуже, но бесплатно.

Зависит от. Если, например, яндекс сделает премиумный поиск за 200 р/мес, который объективно лучше бесплатной версии, то я без проблем заплачу. Я и так яндекс что-то в районе 300 р в месяц отстегиваю, так что основной барьер - привзяка карты - уже пройден.

Но проблема-то не в этом. Проблема сейчас в качестве и достоверности текста. Поисковик этого проверить не может. Он даже текст, написанный человеком, от сгенерированного нейронкой, не отличит. Нужна система контент ревью для всех текстов, добавляемых в индекс. Там, где такая система есть, поисковики неплохо работают - например гугл школар вполне себе хорош, да и элзивировский сайнс директ неплох.

Проблема не столько в том, что нет хороших текстов забесплатно, а в том, что говна забесплатно сильно больше.

Reply

hardsign October 21 2024, 12:21:04 UTC
Да, проблему говна непонятно, как решать. Хочется предложить «пусть пользователи отмечают хороший, годный материал, и постепенно у каждого текста появится рейтинг, объективно показывающий его ценность». И выглядит это прекрасно. Одна проблема - уже реализовано и очевидно работает совсем не так, как задумывалось :(

Reply

john_jack October 21 2024, 13:21:03 UTC
Достаточно не пытаться оценивать материал по сути, но лишь отсекать откровенное говно по форме. Как это давно сделано и прекрасно работает кнопочкой "спам" в почте. Остальное уже можно перебрать вручную.

Reply

iv_an_ru October 21 2024, 17:58:08 UTC

По нынешним временам практичнее кнопочка "удивительно, но вроде не спам".

Reply


akor168 October 23 2024, 05:35:43 UTC
Для начала просто верните поиск по индексированной базе с возможностью у пользователя извлекать все что нужно ЕМУ, а не кому-то с помощью стандартных поисковых средств до уровня регулярных выражений.

Каждый пользователь это потенциальный бесплатный волонтер, готовый работать до нескольких часов в день. Удивительно как этого не понимают. Гугл уже давно мог обработать весь этот ваш интернет миллион раз имея по сути несколько миллиардов этих волонтеров в течение последние 25 лет. То, что они даже не думают в этом направлении в будущем вполне возможно будет считаться самым большим фейлом в индустрии 21-века. Другими словами они могли давно выкатить инструментарий круче всех этих чат ГПТ. Вместо этого они просто убили поиск.

Reply

hardsign October 23 2024, 05:38:07 UTC
Вот тут я не понял - а как именно вы предлагаете обрабатывать пользовательский ввод?

Reply


Leave a comment

Up