слушай, сразу вопрос: а оценка размерности не зависит от величины исследуемого набора (числа строк). Не будет так, что чем больше строк, тем больше оцениваемая размерность? Можешь сделать кросс-валидацию на подвыборках разного размера?
снова я, в режиме педанта: в графике подпись "длина" что имеется в виду? Предполагаю что не длина исходного текста (эмбеддинг у ruberta фиксированный). Предполагаю что это число рассказов, на которых вычислялось scikit-dimension.
Можешь пояснить это место?
Ну и раз у нас есть такая зависимость, то может стоит как-то уравнять жанры?
1) length это длина текста в символах, сделал так для быстроты визуализации.
2) intrinsic dimension у меня получается так. Прогоняем текст через роберту, получаем эмбеддинги для токенов (на последнем слое). Считаем эти эмбеддинги координатами точек в 1024-мерном пространстве. Закидываем список точек в skdim, получается размерность.
3) Да, как-то нормализовать на длину надо. Думаю, как.
Comments 4
Reply
Добавил диаграмму для одного жанра в пост.
Reply
Можешь пояснить это место?
Ну и раз у нас есть такая зависимость, то может стоит как-то уравнять жанры?
Reply
2) intrinsic dimension у меня получается так. Прогоняем текст через роберту, получаем эмбеддинги для токенов (на последнем слое). Считаем эти эмбеддинги координатами точек в 1024-мерном пространстве. Закидываем список точек в skdim, получается размерность.
3) Да, как-то нормализовать на длину надо. Думаю, как.
Reply
Leave a comment