RootUA №3, вересень 2009 стр. 25-27
Библиотека двуязычных текстов diglossa.org
Интересно, что коды живут под свободными лицензиями,
а тексты - нет.
Википедия хранит информацию, словарные статьи. Это не
"тексты", ибо достоинство текста - то же, что и достоинства
живописного полотна - подлинность. Прямые - "наивные" - по-
пытки использовать принципы СПО для текстов, подобные,
например, wikisource, можно считать провалившимися. Они
не развиваются. Хранилища текстов, подобные lib.ru, суще-
ствуют пока, и слава богу. Но дальнейшая их судьба неяс-
на из-за лицензионных ограничений, во-первых, и из-за не-
авторитетности самих текстов, представленных в этих храни-
лищах. Лицензионных ограничений нет для текстов проек-
та Гуттенберг. Однако авторитетность представленных там
текстов также совсем не ясна.
Прочитать-то можно, но вот что ты читаешь, это вопрос.
То, что все тексты будут в скором времени переведены в
электронную форму, и что дело это перспективное, подтверж-
дается существованием проектов наподобие google books,
конкурирующим микрософтовским, scribd и пр. Скорее всего,
эти проекты тоже нужно признать "наивными", хотя и в дру-
гом роде. Дело в том, что тексты (в широком смысле сло-
ва текст) слишком разнообразны, чтобы было возможно упа-
ковать их в единое хранилище.
Текст есть, вопреки кажущейся очевидности, не вещь, по край-
ней мере не неизменная сущность, а, так же как и програм-
ма, - есть процесс, в том числе общественный процесс. На-
пример, практически каждый диалог Платона в Европе пе-
реиздается в виде отдельной книжки раз в десять лет, и это
каждый раз - другой текст. Изменения, возможно, касают-
ся единственной запятой, но в статье, сопровождающей пу-
бликацию, а статья может занимать половину этой книжки,
изменения будут обоснованы.
Мне кажется, что дело не в решении юридических про-
блем, которые, конечно, тоже нужно решать, а в создании
программного обеспечения, которое позволило бы тексту
"жить" в электронной форме.
Сделало бы его авторитетным источником. Точно так же, как
мы сейчас видим и используем авторитетные источники
программного кода. Конечно, поддержание авторитетности
конкретного текста - задача соответствующего творческо-
го и компетентного коммьюнити, а вовсе не всеядных про-
приетарных гуглемонстров.
Не вижу ничего плохого именно в этом монстре, есть и по-
хуже, но не думаю, что он с задачей справится.
Эта задача - для многих и очень разных коммьюни-
ти, соответствующих хранимым текстам, и построенных
на принципах FOSS. Но ПО для функционирования таких
коммьюнити пока нет совсем, и даже задача его создания,
по-моему, в программистской среде пока не осознана.
Представьте себе, например, центр, библиотеку, где хранят-
ся и поддерживаются (распределенно!), например, тексты по
традиционной тибетской медицине. Пользователь, читатель,
или "потребитель текста" должен уметь обратиться к этому
центру и получить интересующий его текст в гарантирован-
но (в том числе и юридически гарантированно) авторитетном
виде.
Что может быть принципом такого хранилища текста? Навер-
ное то, что текст должен храниться не "в виде байтов", а
в среде языка. То есть каждое слово текста должно быть
"понято", то есть распознано и классифицировано системой,
"знающей" соответствующий язык в процессе его развития.
Наверное, это минимальное требование для самой воз-
можности "авторизации текста".
Вот приблизительно об этом я думаю, работая над
http://diglossa.org.
Михаил БЫКОВ m.bykov(a)gmail.com
Российский государственный гуманитарный университет
Библиотека двуязычных текстов diglossa.org является
открытым и свободным в смысле GNU GPL проектом.