t2t

Мастер-класс. Как избежать ошибок в применении сервиса Google Ngram?

Feb 11, 2011 19:58

Продолжаем серию мастер-классов по поиску и обработке информации.
Недавно на блоге был размещен небольшой мастер-класс об использовании сервиса Google  Books Ngram Viewer при проведении исследований.
В комментариях к посту мои друзья высказали некоторые предостережения в использовании этого сервиса.
Продолжаю начатую дискуссию и развиваю тему: как добавить качество количественному анализу текстов?

11 способов сделать контент-анализ лучше

1. Перед началом исследования проконтролируйте, какие издания попали в область поиска (особенно "вес" изданий разных лет, жанров и стран).
При поиске на английском языке сервис позволяет отдельно искать слова в жанре fiction, хотя, как отмечают пытливые исследователи, и в таком поиске можно найти упоминание преимущественно научных фраз "в таблице" и "на рисунке".
Для русского языка предложен только общий поиск, что требует от исследователя серьезного анализа базы данных сканированных документов Google.

2. Если сервис дает необычные всплески или отклонения, не спешите делать выводы - просмотрите результаты поиска. Самый типичный пример - обнаружение сервисом слова Internet в английском языке, датированное около 1900 года.

3. При формулировании запроса продумайте возможные формы искомого слова. Даже если вы уверены, что пишите слово верно, поиск может показать другие результаты (как и другую точку зрения).

Пример:




4. Обратите внимание на первую букву слова (прописная буква, или заглавная). Сервис имеет чувствительность к регистру.

Пример: Написание названия страны с заглавной буквы



Написание названия страны с прописной буквы - совсем другой результат...



Самое интересное: по второму поиску результаты сервис все равно выдает с заглавной буквы.
Не знаю, почему. Может, кто-нибудь подскажет?



5. Сравнивайте слова и фразы только после отдельного исследования каждого. Если частота употребления слов значительно отличается, сервис игнорирует "редкие" слова и вовсе не учитывает их статистику.

Пример: Насколько часто в русском языке авторы употребляют это странное слово "вообщем"?
Результат: сравнение сразу двух форм в одном окне показывает полное отсутствие в русской литературе этого слова.



Отдельная статистика по слову "вообщем" (я даже начала сомневаться - его и впрямь используют, и не только на форумах!)



6. Имейте в виду старые формы употребления слова и моду на слова, если интересуетесь длительной историей употребления слова.
На это уже обращал внимание ivanpoukhkal в комментариях к первому посту об этом сервисе.

Добавлю пример



В английском языке существует схожая беда: старое написание буквы S, которое распознается сервисом Google как  f.
Очень рекомендую остроумную статью на эту тему про анализ употребления слова "fu*k", которая объясняет, почему англичане до 1800 года так активно ругались матом в книгах?

7. Тщательно анализируйте результаты поиска. Если более глубокий анализ литературы по результатам не подтверждает эти результаты, исследование следует поставить под вопрос.
К слову, об этом просят и создатели сервиса, предупреждая о возможных ошибках.

8. Ознакомьтесь с научными статьями создателей сервиса. Аргументацию по многим вопросам они уже продумали за вас - почему бы на нее не сослаться при защите своего исследования? Повторяю ссылку на статьи. Еще можно познакомиться с ответами на часто задаваемые вопросы.

9. Не забывайте о скудности базы данных на русском языке. Если сервис не выдает результаты об употреблении слова, это еще не значит, что оно не употребляется в языке.

10. При сравнении слов из разных языков, убедитесь, что нашли адекватный перевод. Учитывайте сленговые формы, диалект и моду на употребление слов в отдельных профессиях. Иногда для этого следует предварительно просмотреть словари и профессиональные журналы.

Пример: Варианты перевода на английский русского аналога "оценка персонала"



11. Не используйте сервис как единственный или основной метод исследования, только как вспомогательный (по крайней мере, если не сможете дать по нему исчерпывающий анализ). Как я показывала в первом мастер-классе, его можно использовать на этапе выдвижения гипотез, обоснования актуальности, объяснения полученных результатов, а также для развлечения :).

(c) Тамара Кулинкович (Tamara Kulinkovich)

Магистерская диссертация в МБА, Мастер-класс, Графическое представление количественных, Методы исследования в социальных науках , Количественные методы, Написание и защита научной работы, Контент-анализ, Особые Интернет-сервисы

Previous post Next post
Up