Комментатор выше Вам правильно написал, что сервис полностью автоматический. Руками мы только удаляем и только по жалобам. Если Вам интересно, я делала доклад на семинаре про устройство наших роботов: http://mathlingvo.ru/nlpseminar/archive/s_32 (там есть слайды и видео).
Видео пока не смотрел, и, возможно, там есть ответ на мой вопрос. А спросить хочу вот что: используются ли данные энциклопедий, словарей и т.п. источников для идентификации и склейки получившихся персоналий? Ведь достаточно легко обнаружить, что Людвиг Бетховен и Людвиг ван Бетховен - это один человек. Сложнее с транскрипциями (Вильям и Уильям, Фредерик и Фридерик), но и тут, похоже, можно придумать достаточно надежный способ отождествления.
Пока нет. Технология сейчас так устроена, что сначала происходит склейка, а потом простановка ссылок. Мы пробуем разные методы отождествления, в том числе "фонетические". Но когда доходит до большого объема данных, даже самые очевидные вещи начинают выдавать очень непредсказуемые ошибки и вести себя странно. Но что-нибудь мы в этом месте внедрим, обязательно.
С удовольствием прочитала Ваш пост :)
Комментатор выше Вам правильно написал, что сервис полностью автоматический. Руками мы только удаляем и только по жалобам.
Если Вам интересно, я делала доклад на семинаре про устройство наших роботов: http://mathlingvo.ru/nlpseminar/archive/s_32 (там есть слайды и видео).
С уважением,
Татьяна Ландо
Яндекс.Пресс-портреты
Reply
Конечно, мои претензии были не вполне серьезными.
Видео пока не смотрел, и, возможно, там есть ответ на мой вопрос. А спросить хочу вот что: используются ли данные энциклопедий, словарей и т.п. источников для идентификации и склейки получившихся персоналий? Ведь достаточно легко обнаружить, что Людвиг Бетховен и Людвиг ван Бетховен - это один человек. Сложнее с транскрипциями (Вильям и Уильям, Фредерик и Фридерик), но и тут, похоже, можно придумать достаточно надежный способ отождествления.
Reply
Мы пробуем разные методы отождествления, в том числе "фонетические". Но когда доходит до большого объема данных, даже самые очевидные вещи начинают выдавать очень непредсказуемые ошибки и вести себя странно. Но что-нибудь мы в этом месте внедрим, обязательно.
Reply
Кстати, про это была занятная статья у В. А. Успенского http://magazines.russ.ru/novyi_mi/2005/1/uspen.html
Я цитировал кусочек из нее в http://a-bugaev.livejournal.com/671496.html
Reply
Reply
А нам Успенский читал матлогику на первом курсе.
Reply
Reply
Leave a comment