Написали со студентами смешную статью с оценкой объема использования ChatGPT для написания научных статей, используя инструментарий избыточной смертности!
Есть такая библиотека PubMed, которая индексирует более или менее все научные статьи в биологии и медицине (и хоть как-то с этим соприкасающимися темами):
https://pubmed.ncbi.nlm.nih.gov/ -- там сейчас примерно 1.5 миллиона статей в год. Всю их базу данных, которая включает абстракты статей, можно скачать и анализировать в свое удовольствие. У нас недавно вышла статья о том, как всю эту библиотеку визуализировать:
https://www.cell.com/patterns/fulltext/S2666-3899(24)00076-X, -- но сейчас речь не об этом.
Можно посчитать долю абстрактов каждый год, которые используют любое заданное слово, напр. paracetаmol. Эта доля как-то меняется, потому что меняется интерес к этой теме. Но есть слова, для которых доля абстрактов в 2023 и 2024 резко подскочила. Выглядит это так:
Связано это с тем, что появился ChatGPT и другие LLM, и ученые активно их используют для редактирования своих статей, а у текстов, которые производит ChatGPT, распределение слов как-то отличается от среднего по биомедицине. Дальше можно пройтись по всем вообще возможным словам, и для каждого посчитать "избыточную долю" в 2024:
У слова delves доля выросла в 20+ раз (!) -- это рекорд.
У слова potential доля выросла на 0.04+ (это тоже рекорд). Это уже само по себе означает, что как минимум 4% абстрактов в 2024 прошли через LLM. Но можно взять несколько "избыточных слов" сразу и посчитать, насколько выросла доля абстрактов, использующих *хотя бы одно* из них. У нас есть два непересекающихся набора избыточных слов, которые дают ответ 11%. Т.е. как минимум 11% абстрактов в 2024 прошли через LLM.
Анализ по подкорпусам, сравнение с предыдущими годами (с 2010), и рассуждения о том, чем это хорошо, а чем плохо, см. в статье:
https://arxiv.org/abs/2406.07016.