Библиотека двуязычных текстов: vadimrm

vadimrm

Библиотека двуязычных текстов

Jan 08, 2011 16:55

RootUA №3, вересень 2009 стр. 25-27

Библиотека двуязычных текстов diglossa.org

Интересно, что коды живут под свободными лицензиями,
а тексты - нет.

Википедия хранит информацию, словарные статьи. Это не
"тексты", ибо достоинство текста - то же, что и достоинства
живописного полотна - подлинность. Прямые - "наивные" - по-
пытки использовать принципы СПО для текстов, подобные,
например, wikisource, можно считать провалившимися. Они
не развиваются. Хранилища текстов, подобные lib.ru, суще-
ствуют пока, и слава богу. Но дальнейшая их судьба неяс-
на из-за лицензионных ограничений, во-первых, и из-за не-
авторитетности самих текстов, представленных в этих храни-
лищах. Лицензионных ограничений нет для текстов проек-
та Гуттенберг. Однако авторитетность представленных там
текстов также совсем не ясна.

Прочитать-то можно, но вот что ты читаешь, это вопрос.
То, что все тексты будут в скором времени переведены в
электронную форму, и что дело это перспективное, подтверж-
дается существованием проектов наподобие google books,
конкурирующим микрософтовским, scribd и пр. Скорее всего,
эти проекты тоже нужно признать "наивными", хотя и в дру-
гом роде. Дело в том, что тексты (в широком смысле сло-
ва текст) слишком разнообразны, чтобы было возможно упа-
ковать их в единое хранилище.

Текст есть, вопреки кажущейся очевидности, не вещь, по край-
ней мере не неизменная сущность, а, так же как и програм-
ма, - есть процесс, в том числе общественный процесс. На-
пример, практически каждый диалог Платона в Европе пе-
реиздается в виде отдельной книжки раз в десять лет, и это
каждый раз - другой текст. Изменения, возможно, касают-
ся единственной запятой, но в статье, сопровождающей пу-
бликацию, а статья может занимать половину этой книжки,
изменения будут обоснованы.

Мне кажется, что дело не в решении юридических про-
блем, которые, конечно, тоже нужно решать, а в создании
программного обеспечения, которое позволило бы тексту
"жить" в электронной форме.

Сделало бы его авторитетным источником. Точно так же, как
мы сейчас видим и используем авторитетные источники
программного кода. Конечно, поддержание авторитетности
конкретного текста - задача соответствующего творческо-
го и компетентного коммьюнити, а вовсе не всеядных про-
приетарных гуглемонстров.

Не вижу ничего плохого именно в этом монстре, есть и по-
хуже, но не думаю, что он с задачей справится.

Эта задача - для многих и очень разных коммьюни-
ти, соответствующих хранимым текстам, и построенных
на принципах FOSS. Но ПО для функционирования таких
коммьюнити пока нет совсем, и даже задача его создания,
по-моему, в программистской среде пока не осознана.

Представьте себе, например, центр, библиотеку, где хранят-
ся и поддерживаются (распределенно!), например, тексты по
традиционной тибетской медицине. Пользователь, читатель,
или "потребитель текста" должен уметь обратиться к этому
центру и получить интересующий его текст в гарантирован-
но (в том числе и юридически гарантированно) авторитетном
виде.

Что может быть принципом такого хранилища текста? Навер-
ное то, что текст должен храниться не "в виде байтов", а
в среде языка. То есть каждое слово текста должно быть
"понято", то есть распознано и классифицировано системой,
"знающей" соответствующий язык в процессе его развития.

Наверное, это минимальное требование для самой воз-
можности "авторизации текста".

Вот приблизительно об этом я думаю, работая над
http://diglossa.org.

Михаил БЫКОВ m.bykov(a)gmail.com
Российский государственный гуманитарный университет

Библиотека двуязычных текстов diglossa.org является
открытым и свободным в смысле GNU GPL проектом.

wwl, библиотека, wiki