Проблемы в использовании поисковых систем интернета как лингвистического ресурса

Oct 10, 2006 02:00

По просьбе Владимира Кляуса (с которым мы когда-то давно сделали чудесный диск CD «Традиционная культура старообрядцев (семейских) Забайкалья» с поиском всех орфоэпических вариантов!) попытаюсь рассказать в четвергПЯТНИЦУ в 17:00 в ИМЛИ про то, какие ошибки можно сделать, если слишком неосторожно обращаться с поисковыми системами для корпусных нужд.

ATTN: fbmk,sergej_krylov,mitrius,ormer_fidler

Примерный набор тем
- так страницы или сайты?
- что такое "опущенные результаты"
- зачем нужны кавычки
- загадочные "стоп"-слова
- ставить плюсик?
- ночь,день,вечер
- морфологические варианты и как их отключить
- два слова, три слова
- а если не подряд?
- миллион - это много или мало, или что такое IDF
- тайные операторы Яндекса

Ну и тд - все это очень приблизительно и слишком свободно. Надеюсь к послезавтра выкристаллизовать несколько слайдов с примерами типичных ошибок. В любом случае расскажу, все что знаю.
Up