Comments | thesz: Определение авторства.

thesz

Определение авторства.

Sep 04, 2012 14:11

Видео и слайды доклада.

Что интересно, авторство можно определить даже при долгосрочной тренировке, см. про гомо-девочку из Дамаска в слайдах. Много выше, чем случайное совпадение - 54% из трёх авторов.

интернет, безопасность

Comments 8

p2004r September 4 2012, 14:58:56 UTC

6500 необходимых для определения авторства слов увы слишком много для практической пользы.

thesz September 4 2012, 17:44:57 UTC

Действительно, ведь уже с 6499-ю словами система перестаёт работать совсем и даёт результат случайного выбора.

p2004r September 4 2012, 18:08:17 UTC

Мне непонятна Ваша ирония. Считаете меня лохом в вопросах ML? Ну ну.

Вы практически авторство короткого текста пробовали определить? Я например да.

В практическом случае, а не очередном "анализе твитера", на руках в лучшем случае несколько машинописных листков, и это еще очень много.

Так вот определение авторства короткого текста невозможна, если у Вас в руках нет корпуса текста автора около указанного в презентации объема (тем более на уровне таких тонкостей как разоблачение фальсификации). Об этом собственно в презентации и говорится самим автором презентации.

Кстати нормальная презентация метода просто показывала бы зависимость AUC метода от объема корпуса, а не скриншоты гуя.

(Фактически в презентации пиарится поделка которая всего навсего гуй приделывает к тривиальному ML используемому по принципу "черного ящика", (то что обучить до удовлетворительного состояния svm через этот гуй практически невозможно очевидно, в таком режиме кроме random foresta (и то если страты настроить не забудут) не будет работать ни один алгоритм

thesz September 4 2012, 18:19:40 UTC

Я иронизирую над порогом, указанным вами. "6500 - слишком много"

Наверняка же система деградирует, а не разваливается. Наверняка лучшее определение авторства сохраняется и для меньшего объёма исходного текста.

А сейчас я начну иронизировать над плохим докладчиком, что не удосужился дать нужные вам сведения, а рассказал об общих проблемах, успехах и поделился ссылками на софт. Вот ведь гад!

Thread 8