Мой рейтинг LM'ок по качеству расчета перплексии текста

Jan 16, 2024 09:27

В качестве побочного продукта текущего r&d у меня появилась вот такая табличка:

mistralai/Mistral-7B-v0.1 0.65
NousResearch/Llama-2-7b-hf 0.63
ai-forever/rugpt3large_based_on_gpt2 0.62
ai-forever/rugpt3medium_based_on_gpt2 0.60
AlexWortega/Vikhr-7b-0.1 0.59

В ней несколько открытых языковых моделей, доступных в https://huggingface.co/models, отсортированы в порядке убывания рейтинга, полученного в следующем бенчмарке.

1) Есть генерации художественных текстов, для каждого пользовательского промпта по несколько штук.
2) Ранжируем эти генерации с помощью перплексии от LM'ки, и берем топовую генерацию.
3) Затем выполняем экспертную оценку side-by-side выбранной генерации против человеческого варианта для данного запроса.
4) Считаем, как часто эксперт выбирает генерацию из п.3, а не человеческий текст. Числа во втором столбце - усредненный результат такого sbs.

В целом, расчет перплексии в этом пайплайне выполняет роль прокси-искусствоведа, чтобы отбросить кривые (в разном смысле) генерации.

Что хочу заметить по приведенным результатам.

1) Мистраль действительно рулит в своем классе, максимально хорошо генерализуясь на новые домены русских текстов. Сколько там у них было русских текстов в претрейне?

2) Как я уже много раз замечал, доучивание любой foundation LM это не так чтобы простое дело. Можно получить просадку в каком-то свойстве модели, как в данном случае получилось с моделькой Vikhr-7b-0.1.

3) Всегда нужно оценивать все LM'ки на своих бенчмарках, на своей downstream задаче. Ориентироваться на чужие метрики - непрофессиональный подход.

бенчмарки, перплексия, языковые модели

Previous post Next post
Up