Автоматическая обработка текстов

Oct 05, 2011 20:09

Итак, поговорим немного о том, чем я собираюсь вновь активно заниматься - об автоматической обработке текстов. На естественных и искусственных, формальных и неформальных языках.

Кому это вообще надо? Это нужно по крайней мере двум наукам - компьютерной лингвистике и искусственному интеллекту. Попробую объяснить их интерес в той мере, в какой я его понимаю сам. Компьютерная лингвистика занимается автоматизацией решения лингвистических задач. Ей интересно решение задачи автоматического перевода с одного языка на другой, поиска в полнотекстовой базе данных, автореферирования. Компьютерные лингвисты - суть те же лингвисты, они оперируют теми же терминами, и при реализации алгоритмов в виде программных систем стараются реализовать и соответствующие лингвистические понятия. Компьютерную лингвистику можно считать более практически направленной, недели науку об искусственном интеллекте. Для её целей наиболее подходит теория перевода "текст <=> текст", в которой процесс перевода осуществляется между двумя конкретными парами языков без использования языков-посредников. Для каждой пары языков разрабатываются свои правила соответсвия переводимых слов.

Искусственный интеллект - более теоретическая наука (но её практическая значимость всё равно велика). Она занимается моделированием процесса человеческого мышления. А работа с текстовой информацией является основой для мышления (большая часть мыслей в нашей голове имеет вербальную форму, и процесс коммуникации также осуществляется при помощи передачи текста - устного или письменного). Возможно, что без языка невозможно мышление вообще. Поэтому наука об искусственном интеллекте заинтересована в разработке моделей и алгоритмов, способных осуществлять работу с текстами аналогично человеку. Теория "текст <=> текст" тут не поможет: даже научившись осуществлять перевод с любого языка на любой другой, мы не сможем построить программную систему, "понимающую" текст. Для программной системы необходим формальный язык, по своей выразительности не выступающий естественным языкам. Этот язык выступает в качестве языка посредника, языка описания смысла; процесс понимания текста сводится к переводу поступающего текста с исходного языка на язык-посредник. С текстом на формальном языке программной системе работать гораздо легче. Она может произвести необходимые вычисления, сформировать результат на своём языке и затем осуществить обратный перевод результата на язык получателя.

Использование языка-посредника при перевода определяет теорию "смысл <=> текст". Имея язык-посредник, можно использовать его и при переводе с одного естественного языка на другой.

Так вот, ваш покорный слуга - программист, а не лингвист. И ему все эти задачи интересны именно с позиции искуственного интеллекта, разработки "умных" программных систем. Пока я начал активно изучать общие сведения о разработках в области преобразования текстов, узнавать, что уже сделано в этой области (а сделано уже очень много) и выяснять, что же ещё там можно сделать. Область слишком обширна; охватить ею всю не представляется возможным. Данным текстом мне (как я надеюсь) удалось закрепить свою начальную позицию по отношению к рассматриваемой проблеме и сформировать направление дальнейшего углублённого изучения и исследования. По мере выявления новых фактов моя позиция будет конкретизироваться.

Итого, получаем, что задачу перевода я буду рассматривать не как цель работы в данной области, а как некоторый побочный продукт. Куда бОльшее внимает следует уделить алгоритмической стороне решения задачи без необходимости строго соблюдать предписания лингвистики.

ИИ, Игры будущего

Previous post Next post
Up