Соберу тут мои мысли по поводу того, почему я не вижу перспектив семантического поиска или нового подхода во взаимодействии с поисковиками. И что же можно сделать, если умерить пыл и обратить внимание на реальную жизнь.
Преамбула
Примерно с 2005 года, когда я более-менее активно занимался темой "настольного поиска", со мной связывались коллеги с предложениями поучаствовать в разработке интересных систем, которые сводились к "семантическому поиску".
Я раз за разом проговаривал примерно одни и те же аргументы против такой идеи. На текущий момент я уже железно уверен в бесперспективности "семантического поиска" в виде универсального интернет-сервиса в масштабе, сравнимом с лидерами инет-поиска.
Аргумент №1 Инвестиции в железо
Обычно я выдвигаю этот довод в качестве затравки, и обычно мои оппоненты опровергают его одним и тем же способом.
Итак, для начала работы поисковой системы хотя бы на уровне РФ сегмента интернета нужен весьма солидный датацентр. Это несколько миллионов долларов только на закупку серверов, плюс постоянные расходы на аренду колокейшна или просто помещения с кондиционированием и резервным питанием. Плюс обслуга для этого хозяйства, которая конечно не будет работать за идею, а потребует платить реальными деньгами.
Выдвигаемый контраргумент весьма постоянен - есть инвестор(ы), который(е) готовы взять на себя такие расходы. Наше дело - написать софт для семантического поиска.
Ок, я никогда не оспариваю наличие такого щедрого инвестора. Хотя конечно если его фамилия не Алишер Усманов, то вряд ли он потянет такие вложения. Но перехожу к аргументу № 2.
Аргумент № 2 Окупаемость
Обычно разработчики не прорабатывают этот вопрос вообще никак, ограничиваясь ссылкой на инвестора.
То есть я говорю - а кушать разработчики что будут в течении примерно 1-2 лет, пока готовится релиз версии 1?
Контраргумент - опять-таки инвестор. Который будет кормить и поить.
Такая модель финансирования, безусловно модная из-за обилия стартапов, на мой взгляд нежизнеспособна, и вот почему.
Цель инвестора - не разработка семантического поиска. Он хочет пристроить временно свободные финансы на более выгодных (с учетом риска) условиях, нежели предлагают банки для депозитов. При горизонте бизнес-планирования в 1 год он уже через первый год проекта будет решать проблему - давать ли деньги на прокорм команды дальше или закрыть убыточный стартап. Даже если он не захочет признать убытки на первом году и продлит проект еще на год, то по истечении второго года будет вынужден прикрыть финансирование.
Чтобы проект начал жить не на искусственном дыхании, нужно, чтобы у него была модель окупаемости, aka монетизации. Он должен банально приносить доход за сцет своей работы, а не посторонними вливаниями.
Отбрасывая спонсорские деньги, можно придумать только 2 способа реально зарабатывать для проекта семантического поиска в современных условиях, и дать своим создателям более-менее стабильный доход.
Во-первых, это банальная реклама. Собственно, это единственный источник дохода для лидеров индустрии инет-поиска. Почему бы семантическому поиску не зарабатывать так же?
Да потому, что стартап не сможет выйти на прямые контракты с рекламодателями, пока не станет очень крупным. Серьезные рекламные агенства не будут работать с рекламной площадкой меньше определенного размера, им это просто невыгодно.
А для заработка каких-то ощутимых денег на adsense нужна посещаемость в десятки тысяч уников в день. Достичь такую посещаемость очень трудно, это минимум год-два раскрутки в случае, если контент востребован пользователями. А контента у семантического поиска нету! Это сервис-посредник, который должен быть полезен пользователям, чтобы они тысячами каждый день заходили на стартовую страницу и иногда кликами на рекламных баннерах, принося проекту копейку за копейкой.
Во-вторых, имеется более реальный канал доступа к деньгам - платный доступ к своим услугам. Безусловно, никто в здравом уме не будет платить за возможность использовать семантический поиск при наличии в этой же нише бесплатных конкурентов. Поэтому остается второй вариант - стать посредником между пользователями и продавцами товаров и услуг, получая с каждой успешной сделки свои 2 процента в доход.
И вот тут мы переходим к третьему аргументу.
Аргумент № 3 Всемогуторный семантический поиск
Суть довода проста - никому не нужен универсальный семантический поиск по информации вообще, так как это нереально и не принесет пользы.
Нет смысла делать семантический поиск по Википедии, по ЖЖ или по Мордокниге. Любая попытка будет просто забавой и развлечением на полчаса, после чего ее забросят и забудут.
Семантический поиск - это попытка сделать интерактивную Большую Советскую Энциклопедию или (кому что ближе) Британнику. Чтобы в одном месте была собрана вообще вся информация. Но между энциклопедическими знаниями и запросами обычных пользователей есть важное отличие - информация, которую ищет обычный пользователь, не научна, не достоверна, зависит от времени года и места жительства и так далее.
Допустим, что должен делать "семантический поиск" при запрос "лучший амулет для укрепления семьи"? Сказать пользователю, что амулеты и прочая магия это ненаучный и неподтверждаемый бред, чему есть множество хороших подтверждений? Или дать ссылки на сайты с описанием таких амулетов? Исходя просто из формальной логики вывода ответа, и тот и другой вариант одинаково обоснованы.
Универсальный семантический поиск невозможен по той простой причине, что в большинстве случаев просто не существует единственно верного ответа на вопрос пользователя. Даже верифицируемые источники информации содержат противоречия. Даже простейшие вопросы могут допускать неоднозначность ответа. День рождения Маяковского? А по новому стилю или по старому? В Википедии указаны даты по обоим стилям. В других источниках может быть приведена любая из дат, с указанием на стиль или без. Либо просто ошибочная информация. Если же робот-сканер поисковика забредет на сайт со студенческими рефератами, то он может собрать столько взаимоисключающих фактов, что выдача будет намертво убита мусором.
Рецепт № 1 Нишевый поиск
Что же можно сделать?
На мой взгляд - делать нишевый поиск при наличии определенных условий.
Нишевый семантический поиск - это специализированная поисковая посредническая услуга, работающая на достаточно формализованном рынке. Узкая специализация снимает остроту аргумента № 1, значительно ослабляет аргумент № 3 и решает проблему аргумента № 3.
Условие 1. Должен быть устоявшийся рынок с множеством покупателей и продавцов. На таком рынке обычно стихийно складываются стандарты ведения сделок, которые хорошо формализуются и обрабатываются логическими предикатами.
Например, продажа семечек. Сложившийся стандарт - стакан жареных семечек. Он уже привычен и покупателем и продавцам. Что мы можем сделать в плане семантического поиска? Научиться отвечать на запросы пользователей голосом в глазфоне и ведроиде "где купить семок?" с учетом данных геолокации. Выдача будет содержать координаты ближайших бабушек и цены на стакан. Выдавать в результатах положение оптовых баз и цену на тонну сырья будет конечно же неправильно.
Если рынок не выработал формальные стандарты, то семантический поиск невозможен. Например, запрос "Ближайший концерт с хорошей музыкой" нельзя обработать, так как нет общепринятого стандарта оценки качества музыки.
Условие 2. Достаточный уровень интернетизации. В рыночной нише продавцы должны быть максимально вовлечены в сеть. Например, бабушки с семками должны либо носить rfid'ы для автоматической геолокации, либо руками отмечать в картах свое местоположение.
Альтернативный вариант - социализация источника, то есть пользователи сами вносят в базы данных информацию. Положение ям на дорогах, координаты баров с выпивкой или что-то другое. Но этот вариант является четким сигналом к тому, что окупаемый нишевый семантический в данном случае невозможен, так как банально нет заинтересованности продавцов. Поэтому условие № 2 является необходимым (хотя и все еще недостаточным).
Условие 3. Наличие денежного потока.
Коммерческий успех нишевого семантического поиска возможен только в том случае, если есть денежные отношения между участниками рынка.
Когда деньги переходят из кармана в карман, появляется возможность стать полезным посредником и перенаправить немного денег себе в качестве премии за поисковые услуги. Обычный вариант - получать от продавцов скидку на продаваемые товары. Таким образом, услуги поиска фактически оплачивают покупатели, но незаметным для себя способом.
Пока cashflow не виден, делать окупаемый семантический поиск невозможно.
Пока размер сделок мал, проект не станет окупаемым.
Условие 4. Необходимость реализации логики при выдаче результатов.
Нишевый поиск будет конкурировать с универсальными интернет-поисковиками, пытаясь отбить у них пользователей. Попросту говоря, он будет конкурировать со связкой Яндекс.Поиск+Яндекс.Директ, в которой продавцы услуг через контекстную рекламу отвечают на запросы пользователей типа "где купить пластиковые окна" или "ближайшая стоматология".
Если обработка типичных запросов, видимых через систему подбора ключевых слов, легко выполняется обычным интернет-поисковиком с поддержкой карт, то нишевый поиск проиграет просто из-за своей непривычности пользователю и следовательно ненужности.
Если пользователи хотят делать запросы типа "туры в Египет с ребенком, с экскурсией к пирамидам", то тут можно уже конкурировать с Яндексом и Гуглом. Обычный интернет-поиск будет замусорен SEO-спамом по данным темам, вынудив пользователя все равно выполнить ручной поиск вариантов, к примеру по сайтам турагенств или через специализированный поиск (ага, как раз нишевый почти-семантически поиск). Семантическая поисковая система может разбирать типичные запросы по своей тематике и выполнять выдачу результатов с набором логических фильтров в удобном для пользователя виде - список туров с датами, ценами, отелями и так далее.