(КНИГА) - - Часть 2 -- Как учить? -- Текст как корпус - конкретная процедура (3)

Mar 25, 2013 19:42

Text as Corpus -- procedure

Итак, выше мы исследовали идею "вот если бы прочитать
одну книгу, но ее действительно знать!", и пришли к
идее, что сегодня можно и легко с помощью домашнего
компьютера рассматривать книжку, которую вы читали,
как мини-"корпус" языка

Я попробовал создать для себя конкретную процедуру.
Вот что получается.

(1) Берем том Гарри Поттера, который мы читали с
параллельным томом на "понятном" языке - с одновре-
менной озвучкой его актером-носителем языка (ГП
переведен на все европейские языки, и всюду позапи-
саны аудиокниги лучшими актерами наций)

(2) Слегка "нормализуем" текст книги (книга перево-
дится в чисто текстовый формат (с UTF-8)): сделаем
каждое предложение отдельной строчкой:

perl -ne 's/\./\n\./g; print' book.txt > book-line.by.line.txt

(3) Возьмем список самых частых слов языка, по частям
речи. Дальше я напишу команду для ручного поиска по
одному частому целевому слову, но это элементарно
превращается в мини-скрипт, который создаст результат
в текстовом файле по всем частым словам из
нашего списка (я буду исследовать типичные 2000-3000).

Например, все предложжения со вхождением слова "время"
определятся так (для французского):

grep ' [Tt]emps ' book-line.by.line.txt >> out.txt

Для примера, в 400-страничной книге мы увидим примерно
19 примеров слова "homme",
151 ......."chose",
133 ......."main" и т.д.

Это очень немного, и более чем обозреваемо для человека.
Это не тысячи и даже не сотни строк -- и это максимум,
для самых-самых частых существительных языка.

Эта работа не ручная, все вхождения всех нужных мне
частых глаголов и существительных сделает компьютер, я
лишь получу готовый файл, который буду читать

(4) Я открываю файл в текстовом редакторе и начинаю его читать.
Для удобства я подсвечиваю целевой слово поиском

échapper un petit cri et plaqua ses mains contre sa bouche; quant à Mr Dursley.
de mousse qu'elle tenait à la main et qu'elle essaya de lui abattre sur la tête.
Harry se lava les mains et avala son pitoyable dîner.
Dobby plaqua ses mains contre ses oreilles.
Il essaya d'arracher les lettres des mains de Dobby, mais celui-ci fit un bond
La trappe aménagée dans la porte bascula et la main de la tante Pétunia apparut, poussant à
D'un même mouvement, les frères Weasley tirèrent Harry si fort que sa cheville glissa des mains
Mrs Weasley vint se planter devant eux, les mains sur les hanches, regardant alternativement
se redressa en tenant une créature à la main.
secouer frénétiquement sa main pour essayer de lui faire lâcher prise jusqu'à ce que.
par disparaître à force de rétrécir, et les Moldus n'arrivent plus à remettre la main dessus.
Elle tenait à la main un long tisonnier qu'elle

Из этого абзаца я вижу, какие жесты делают руками, что делают руки,
(берут в руки, моют руки, руками затыкают уши, берут что-то из рук,
руки скользят по чему-то, руки упираются в бока, трясут рукой, и т.д.,
и т.д.

На этой ступени - компьютер собрал за меня все что надо,
избавив от механической работы - я изучаю язык книги как
мини-корпус, как лингвисты изучают язык - в какие структуры
входят целевые слова, с чем они сочетаются.
Я могу минимально модифицировав скрипт (grep -C1 ....)
извлекать соседние строчки-предложения, если мне нужно
больше контекста.

Все это - что очень важно - я делаю на примерах из книги,
которую уже читал, заметно помню, и полностью понимаю.
Я избегаю стадии дешифровки и заталкивания нового - а старое
запоминается через повторение, что такая процедура обеспечит.

(5) Этот текстовый файл - я удалю на стадии (4) из него
очевидные повторения (его жена, его жену, его женой) -
теперь годится, чтобы запустить его в "балаболку", программу,
которая озвучивает текст.

С приличным современным голосом она вполне справится со
своей ролью на этой ступени - напомнить мне правильное
произношение фраз.
Я также могу ей приказать прочитать весь файл или его
куски в файл, например, MP3, который потом буду слушать
на плейере несколько раз.

На фазе 4 я могу также вставить в файл некие пометки или
разделить patterns по группам, что тоже отразит читалка.

Сегодня я проверил один современный французский голос,
сравнив его со чтением актера. Он не передает живые
интонации и эмоции, но со чтением отрывков он справляется
прекрасно, и весьма отчетлив.

Вычитать и выделить нужные patterns - работа, примерно
на месяц - до двух. Но это разумная работа. Процедура
выдумана, она экономична (вспомните прикидку по времени,
нужном для выписывания от руки, как делали раньше, которая
была сделана в первой части этого раздела), т.е. отвечает
тем ограничениям, в которых мы решаем нашу задачу:
найти такие методы изучения языка, которые сводили бы
к минимуму как объем того, что необходимо усвоить, так
и общее время усвоения, снизив его до месяцев вместо лет.

Итак
    (1) автоматически обрабатываем текст. Моя работа-
    одна команда
    (2) читаем полученные примеры - активная работа,
    обучение. Заодно убираем строки с ненужными повторениями.
    (3) автоматически записываем начитку в mp3.
    (4) слушаем много раз, припоминаем, повторяем вслух
    (активная работа, обучение).

P.S. Для тех, кто не может автоматизировать рутинные
задачи извлечения строчек-предложений можно открывать
текст в редакторе или даже браузере и делать поиск, затем
копируя нужное мышью-руками в файл с описаниями слов.
Это разумеется громоздко, и хотя и лучше выписывания,
и растягивает время получения результата по отношению
к моей процедуре.
Previous post Next post
Up