Leave a comment

Comments 5

equa_lizer March 21 2012, 07:55:55 UTC
в T-SQL есть строковые функции SOUNDEX и DIFFERENCE, правда не уверен что они с русским хорошо работают, тестить нужно. Ну и предварительно разбивать на слова.

Reply


equa_lizer March 21 2012, 07:57:23 UTC
Ещё можно юзать колдунщик падежей (например яндексовский), чтобы приводить все слова к одному падежу и считать процент совпадения,
правда неочевидно как можно сравнить текст в 1К и 100К

Reply


xoposhiy March 21 2012, 08:37:09 UTC
1. Колдунщик падежей называется стеммер. Например, вот: http://snowball.tartarus.org/... )

Reply

bug0r March 21 2012, 10:24:24 UTC
Да, расскажу. На почту сейчас напишу.

Reply


sisin83 March 21 2012, 12:46:14 UTC
Знаю, что диссертации проверяются по подобному алгоритму

Reply


Leave a comment

Up