Что интересно, авторство можно определить даже при долгосрочной тренировке, см. про гомо-девочку из Дамаска в слайдах. Много выше, чем случайное совпадение - 54% из трёх авторов.
Мне непонятна Ваша ирония. Считаете меня лохом в вопросах ML? Ну ну.
Вы практически авторство короткого текста пробовали определить? Я например да.
В практическом случае, а не очередном "анализе твитера", на руках в лучшем случае несколько машинописных листков, и это еще очень много.
Так вот определение авторства короткого текста невозможна, если у Вас в руках нет корпуса текста автора около указанного в презентации объема (тем более на уровне таких тонкостей как разоблачение фальсификации). Об этом собственно в презентации и говорится самим автором презентации.
Кстати нормальная презентация метода просто показывала бы зависимость AUC метода от объема корпуса, а не скриншоты гуя.
(Фактически в презентации пиарится поделка которая всего навсего гуй приделывает к тривиальному ML используемому по принципу "черного ящика", (то что обучить до удовлетворительного состояния svm через этот гуй практически невозможно очевидно, в таком режиме кроме random foresta (и то если страты настроить не забудут) не будет работать ни один алгоритм
Я иронизирую над порогом, указанным вами. "6500 - слишком много"
Наверняка же система деградирует, а не разваливается. Наверняка лучшее определение авторства сохраняется и для меньшего объёма исходного текста.
А сейчас я начну иронизировать над плохим докладчиком, что не удосужился дать нужные вам сведения, а рассказал об общих проблемах, успехах и поделился ссылками на софт. Вот ведь гад!
Comments 8
Reply
Reply
Вы практически авторство короткого текста пробовали определить? Я например да.
В практическом случае, а не очередном "анализе твитера", на руках в лучшем случае несколько машинописных листков, и это еще очень много.
Так вот определение авторства короткого текста невозможна, если у Вас в руках нет корпуса текста автора около указанного в презентации объема (тем более на уровне таких тонкостей как разоблачение фальсификации). Об этом собственно в презентации и говорится самим автором презентации.
Кстати нормальная презентация метода просто показывала бы зависимость AUC метода от объема корпуса, а не скриншоты гуя.
(Фактически в презентации пиарится поделка которая всего навсего гуй приделывает к тривиальному ML используемому по принципу "черного ящика", (то что обучить до удовлетворительного состояния svm через этот гуй практически невозможно очевидно, в таком режиме кроме random foresta (и то если страты настроить не забудут) не будет работать ни один алгоритм
Reply
Наверняка же система деградирует, а не разваливается. Наверняка лучшее определение авторства сохраняется и для меньшего объёма исходного текста.
А сейчас я начну иронизировать над плохим докладчиком, что не удосужился дать нужные вам сведения, а рассказал об общих проблемах, успехах и поделился ссылками на софт. Вот ведь гад!
Reply
Leave a comment