Продолжаем обсуждать способность больших языковых моделей заменить людей в отдельных профессиях. Сегодня мы
опять вернемся к финансовой сфере. Команда исследователей из академии и банка “JPMorgan”
провела эксперимент, в котором нейросетям ChatGPT и GPT-4 предлагалось пройти экзамен на сертифицированного финансового аналитика (шире известен под аббревиатурой CFA).
CFA - один из самых уважаемых сертификатов в области инвестиций. Он подтверждает высокий уровень профессионализма его держателя. В среднем, пройти его успешно получается у 40%-60% кандидатов. Те, у кого это получается, могут рассчитывать
на гораздо более высокие заработки: на 30%-50% выше, чем у коллег, не имеющих CFA.
Сертификация имеет три уровня. Экзамены на каждый следующий уровень сдаются после успешного прохождения предыдущего. Первый уровень - это тест из 180 вопросов с несколькими вариантами ответов. Второй уровень - 22 кейса, по несколько вопросов с вариантами ответа на каждый, в общей сложности 88 вопросов. Третий уровень - кейсы с вопросами и вариантами ответов, плюс кейсы с вопросами, на которые нужен развернутый ответ в свободной форме.
Исследователи ограничились проверкой языковых моделей по первым двум уровням, в силу более простой процедуры оценки. Ситуация была осложнена тем, что организатор сертификационной программы, CFA Institute, не сотрудничал с исследованием и не предоставлял ни экзаменационные материалы, ни методику оценки ответов. Что автоматически ставило крест на попытке экзаменовать модель по третьему уровню CFA. Поскольку вопросы прошлых экзаменов организация тоже не публикует, пришлось реконструировать их вручную (с чем наверняка помогли сотрудники “JPMorgan”).
Модели экзаменовались при помощи нескольких техник составления запроса, однако самые передовые техники не использовались. Итак, каковы же результаты? С наилучшими техниками ChatGPT правильно отвечает на 63% вопросов первого уровня и 48% - второго. Для GPT-4 эти значения составляют 75% и 61% соответственно.
Повторимся, что процедуру вынесения окончательного вердикта организатор держит в тайне, и порог прохождения экзамена немного колеблется год от года. Но, сформулировав наиболее правдоподобные условия, исследователи получили, что СhatGPT в состоянии пройти первый уровень сертификации. GPT-4 проходит оба тестировавшихся уровня.
Прежде чем открывать шампанское и выгонять на улицу обитателей уолл-стритовских небоскребов, давайте коснемся причин, которые гипотетически могли ухудшить результаты моделей. Во-первых, более слабые результаты во втором уровне экзамена могут объясняться тем, что вопросы там очень сильно налегают на табличную информацию. Если в первом уровне на каждый вопрос приходится в среднем 0,17 таблиц, то во втором - 1,47 таблицы. Тестируемые языковые модели плохо оптимизированы на работу с табличной информацией. При этом решения, которые значительно улучшают навыки такой работы, принципиально уже существуют.
Темы экзамена и характеристики вопросов для него. Длина запроса обозначена в токенах, 1 токен ~= 0,75 английских слов
Во-вторых, существенная часть ошибок приходится на арифметические расчеты. Причем для более осведомленной модели GPT-4 эта доля выше, т. к. она делает меньше ошибок в теории. Решения этой проблемы проработаны еще лучше, чем для табличной информации, и внедрение некоторых из этих решений могло бы еще сильнее улучшить результат GPT-4.
Итак, пора ли инвестиционным аналитикам обращаться за пособием по безработице? «В то время как экзаменация с тестами и письменными ответами в свободной форме остаётся отличным путём проверки образования и понимания в среде с гарантированным контролем, ежедневная работа в финансах не сводится только к последовательности коротких, отдельно взятых вопросов», -
заявляет Крис Визе, управляющий директор по образованию CFA Institute.
Другими словами, то, что проверяет экзамен CFA и то, что должен делать на работе инвестиционный аналитик - это две большие разницы. И экзамен CFA проверяет то, что проверяет, потому, что проверять такое легко. «Ищут там, где светло, а не там, где потеряли».
И, да, 500 долларов в год. Это гениальная бизнес-модель.
Соответственно, исследователи оценивают способности языковых моделей, идя вслед за образовательным институтом по пути наименьшего сопротивления. Получается, что такие оценки не очень репрезентативны для понимания перспектив автоматизации рабочих мест.
Впрочем, можно утешить себя тем, что они не более и не менее репрезентативны, чем сертификация CFA для людей. И в этом не очень репрезентативном бенчмарке машины уже не уступают людям.
Поэтому последнее слово здесь должно быть за работодателями. Работодатели, в свою очередь, сейчас настроены довольно трезво. И одновременно конструктивно. Большие языковые модели практически везде рассматриваются как инструмент, повышающий производительность труда аналитика. А не как полноценная его замена. Интересные кейсы можно посмотреть
здесь и
здесь.
А мы пока подождем следующее, более сильное поколение моделей. Потому что если имеющийся тренд продолжится - обладателям CFA будет всё сложнее оправдывать свое присутствие в платежных ведомостях инвестиционных фирм.
_______________________________________________________________
Друзья, я начал вести канал в Телеграм:
Экономика знаний. Подписывайтесь!