Теорема Байеса очень успешно используется для фильтрации спама. Вкратце, она позволяет "обратить" вероятность: при обучении фильтра мы знаем вероятность появления того или иного слова в спаме и в обычной почте, а потом на основе слов оцениваем вероятность того, спам это или нет
(
Read more... )
По фильмам конечно сложнее, зависит от того, как хорошо ставятся тэги и т.п. Либо брать обзоры. И то, не понятно, как обрабатывать именно содержание фильма, а не личные впечатления от него.
Пока что у меня лучше срабатывает нахождение людей, чей вкус больше всего совпадает с твоим, и брать фильмы из их списка.
О, или брать комбинацию (фильм, автор списка) :) Наверное, должно сработать...
Вот по содержанию книг - это интересно. Правда, там тоже, наверное нужно разделять тематику: например, если брать и художественную литературу, и техническую, то в результате в выборке может имхо появиться художественная литература с тяжёлым языком :), я же в художественной литературе чаще всего предпочитаю поменьше наукообразных слов, а в технической же наеборот, когда много воды - не приемлю.
Либо, когда проставляешь "вес", то выбирать сразу и вес для каждой категории (особенно для книг со смешанных категорий)..
Мысль интересная однако..
З.Ы. По поводу книг - на сайте livelib.ru есть какой-то алгоритм рекомендаций, но он не по содержанию, а, похоже, по тэгам.
Reply
Reply
Leave a comment