обучение для вероятностной модели

Nov 04, 2012 18:37

Конечно, крайне самонадеянно строить глубокомысленные теории по поводу этого проявления психической деятельности человека, но других-то путей все равно нету. Можно сказать, что особенности процесса обучения для человека - это не выработанная социальной эволюцией эффективная методика, и способ обойти присущие нашему мозгу недостатки - забывчивость, утомляемость, склонность упорствовать в заблуждениях и т.д.

1. Обучение для человека всегда организуется путем усложнения примеров и упражнений. Никто не начинает изучать английский язык путем чтения плохого качества сканов переводов работ Фридмана по космологии. Никому в здравом уме не придет в голову обучать детей в школе русскому языку на статьях по алгебраическим теориям.

Другими словами, если обучение не организовано, а происходит как засасывание большого корпуса и затем как серия хитрых математических вычислений над ними с получением вероятностной модели - это не аналог человеческого процесса обучения. Не значит, что этот метод обучения хуже или ущербен. Это значит, что он совсем другой.

Можно и по-другому сформулировать. Алгоритм обучения, видимо, может быть оптимальнее, если он использует порядок следования обучающих материалов.

2. Если алгоритм обучения сталкивается с проблемами точности, ограниченности машинной арифметики с плавающей точкой, необходимостью правильно перенормировывать промежуточные вероятности из-за из ухода в ноль, то это чисто математический подход. Очень трудно представить, что нейроны реализуют точную арифметику с плавающей точкой. Раз дарвиновская эволюция не сочла необходимым реализовывать высокоточные вычисления, то значит без нее вполне можно и нужно обойтись. Смогла же она реализовать эффективный ультразвуковой локатор у летучих мышей без набора DSP

3. Метод обучения должен быть в той или иной степени инкрементален. Метод должен извлекать вычислительную пользу из разбивки на небольшие циклы обучение-закрепление. С другой стороны, такая разбивка должна снижать влияние больших степеней в оценках трудоемкости O(n^k).

4. Если сузить предметную область до обучения языку, то представляется контрпродуктивным отказываться от идеи задания некоторых априорных знаний. Метод обучения модели не должен пытаться выстроить свое представление о мире и выводить "теорию всего" на основе набора тренировочных предложений. Он вполне может исходить, к примеру, из факта наличия в языке слов, соответствующих предметам (то есть существительных). их свойствам (прилагательных), и различным явлениям для этих предметов (глаголам). Тут мы даже входим в соприкосновение с такой вещью, как валентность глаголов и глубинные падежи, которые все не просто так были придуманы.

5. Вероятностная модель может и должна извлекать пользу из такого факта, что многие языковые факты подчиняются чему-то типа "закону Ципфа". Во многих случаях можно простым способом решать аж 95% задач, не привлекая сложные модели. Например, вероятностная модель лемматизатора умудряется правильно находить лемму для 98-99% слов в моем тестовом корпусе, не привлекая сведения о семантике. Остающиеся 1-2%, конечно, требуют привлечения более сложных алгоритмов. Другими словами, вместо одной "серебряной пули" лучше иметь набор разных алгоритмов. И обучаться, видимо, они должны по-разному. Самый простой пусть вовсю использует параллелизм, brute force переборные подходы и вообще действует прямолинейно. А самый сложный пусть работает медленно и последовательно.

обучение

Previous post Next post
Up