Корпусная инженерия

Jun 13, 2012 12:19

В языкознании (так по-старинке у нас кличут linguistics) есть корпусная лингвистика (corpus linguistics): дисциплина, занимающаяся изучением наборов текстов с какими-то предзаданными характеристиками (например, "типичные транскрипты чатов 2004г.", "художественная проза XIX века", "милицейские протоколы лета 1993г.", "современные богослужебные ( Read more... )

Leave a comment

Comments 2

lazy_frog June 13 2012, 08:55:12 UTC
В лингвистике тоже нужны свободные (или хоть как-то доступные) корпуса. Без них инженерная составляющая лингвистики сильно проседает. Мы вот делаем Открытый корпус (opencorpora.org) как раз для того, чтобы появились данные для тестирования и разработки софта. И чтобы они были понятного, оцениваемого качества.

Reply

ailev June 13 2012, 09:11:26 UTC
Ну да, и в лингвистике нужны такие свободные данные, и в программной инженерии, и в просто инженерии. Везде, где что-то делается, нужны не только образцы уникальных инструментов/выполнителей, но и образцы уникальных объектов работы, с которыми эти инструменты работают.

Reply


Leave a comment

Up