универсальная структура текста

Oct 09, 2012 10:29

Оригинал взят у doctor_glebster в универсальная структура текста
Мой хороший знакомый и коллега Марсело Монтемурро (Marcelo Montemurro) провел интересное исследование [1,2]. Оказалось, что количество информации, содержащееся в осмысленном расположении слов, примерно одинаково для многих известных языков. Оно одинаково даже для языков, которые не связаны друг с другом как например китайский, английский или шумерский.

Монтемурыч рассчитал энтропию текста, т. е. степень равномерности распределения отдельных слов в тексте, для тысяч текстов на следующих языках: английском, французском, немецком, финском, тагальском, шумерском, древнеегипетском и китайском. Затем он случайным образом перемешал слова в этих текстах и опять рассчитал энтропию. Количество информации потерянное после перемешивания составило примерно 3.5 бита на слово и это количество было одинаково для всех проанализированных языков.

Можно предположить что все естественные человеческие языки имеют сходную универсальную структуру текста.

Интересно, каким был бы результат анализа текста таинственного манускрипта Войнича. До сих пор непонятно каким языком написан этот манускрипт: настоящий ли это язык или просто подделка под секретный текст.
Марсело сказал что он как раз работает над этим и скоро опубликует результаты.

Ссылки:
1. Статья в журнале Wired.
2. Оригинальная статья в PLoS ONE.

интересное, слова, языки общения, коммуникации, тайны, ребусы, лингвистика, загадки

Previous post Next post
Up