Рекомендация по стратегии

Sep 15, 2015 08:45

Пишу уже второму клиенту "Рекомендации по стратегии развития XXX" и понимаю, что важнейший в этих рекомендациях пункт будет недооценен и поэтому имеет все шансы быть не выполненным. Речь идёт об использовании глубоких нейронных сетей. Где? Ответ: везде. Как? Ответ: очень по-разному ( Read more... )

Leave a comment

vit_r September 15 2015, 07:27:06 UTC
Для обучения нужны дикие объёмы примеров. Все места, где я до сих пор примеривался с этим подходом обладали двумя особенностями:
1. количество доступного материала недостаточно
2. в доступном материале содержатся ошибки, которые может распознать не каждый эксперт.

То есть, всё то же самое, что и с онтологиями: Пока мы в мире тривиальных примеров, всё прекрасно. Как только нужно копать что-то серьёзное, выясняется, что дефицит во времени крутых спецов и никакой студент с модными тулами их не заменит.

Reply

abayda September 15 2015, 08:32:17 UTC
Вот и у меня весьма похожие впечатления.

Reply

buriy September 15 2015, 10:36:55 UTC
Давайте я вам дам хоть триллион примеров, но я уверен, что вы не научите систему распознавать речь с точностью выше 96% (т.е. character error rate -- 4%, кстати, у человека -- порядка 2%).
Я дам вам миллиард картинок (триллиона увы у меня нет), но вы не научите систему распознавать миллион классов объектов с точностью выше 96%.
Аналогично, я вам дам миллиард примеров предложений, а вы не научитесь с точностью 99% выделять объекты из этих примеров.
Пусть даже примеры будут без ошибок.
Но, увы, есть проблемы гораздо более фундаментальные, чем недостаточное количество примеров.

Reply

vit_r September 15 2015, 10:43:15 UTC
"Выпей море, Ксанф!"

Откуда "я могу дать" миллиард картинок хотя бы с правильными тегами?

Reply

buriy September 15 2015, 11:59:24 UTC
Ну, например, можно рендерить картинки в виртуальном мире или использовать кадры видеороликов, дополнительно вырезая какие-нибудь рандомные участки или используя технологию типа Predator для фиксации на определённом объекте ( ... )

Reply

vit_r September 15 2015, 12:17:38 UTC
Я уверяю вас, это не так

"мамой клянусь!"

Предложенный способ как-бы не очень годится в практическом случае.

Для реальных задач количество вариантов обозримо. И скорость обучения на разных наборах данных будет различна. То есть, теоретически задача решалась бы, если бы было достаточное количество примеров.

Reply

buriy September 15 2015, 12:27:41 UTC
Я понимаю, что недостаточное количество данных ещё больше усугубляет ситуацию, но это миф про то, что существует "достаточное" количество данных -- и даже скорее всего задача не решится, если данных будет бесконечность. Максимальная обобщающая способность нейросети меньше, чем у человека. Где-то это более критично, где-то менее, но почти всегда это влияет на итоговое качество ( ... )

Reply

vit_r September 15 2015, 12:37:32 UTC
На 100% в любом распознавании доверять нельзя, потому что границы не чёткие.

А собака в большинстве практических случаев и требуется. Нужно не вести философские беседы, а лаять, кусать или вилять хвостом. Теоретически даже мощностей на такое хватило бы.

Но есть публичные данные, которые мало смысла в практическом плане имеют, и есть технические данные, на которые хотелось бы напустить алгоритмы, да только смысла нет.

Reply


Leave a comment

Up