Мой рейтинг LM'ок по качеству расчета перплексии текста

Jan 16, 2024 09:27

В качестве побочного продукта текущего r&d у меня появилась вот такая табличка:

mistralai/Mistral-7B-v0.1 0.65
NousResearch/Llama-2-7b-hf 0.63
ai-forever/rugpt3large_based_on_gpt2 0.62
ai-forever/rugpt3medium_based_on_gpt2 0.60
AlexWortega/Vikhr-7b-0.1 0.59
В ней несколько открытых языковых моделей, ( Read more... )

бенчмарки, перплексия, языковые модели

Leave a comment

Comments 2

p2004r January 16 2024, 14:24:55 UTC

Вместо одного числа лучше получить "плотность распределения".

Ну и интересен вопрос - а "ансамбль" из сочетаний этих моделей лучше или они "поглощают оценку друг друга"

Reply

kelijah January 17 2024, 06:44:55 UTC
Ансамбль скорее всего даст прирост, потому что модели явно учились на разных датасетах (мистраль и ллама возможно перекрываются в какой-то части).

Но мне эти оценки нужны были для выбора модели ранжировки в прод, и там городить что-то тяжелое совсем не хочется.

Reply


Leave a comment

Up