Comments | kelijah: Intrinsic dimension для разных жанров поэзии

kelijah

Intrinsic dimension для разных жанров поэзии

Nov 18, 2023 18:39

(в продолжение вот этой темы про топологию эмбеддингов)

Распределения intrinsic dimension, рассчитанные с помощью scikit-dimension по эмбеддингам модели ruroberta для стихов некоторых жанров, выглядят так:
( Read more... )

intrinsic dimension, стихи, embeddings

Comments 4

imageman72 November 19 2023, 12:42:30 UTC

слушай, сразу вопрос: а оценка размерности не зависит от величины исследуемого набора (числа строк). Не будет так, что чем больше строк, тем больше оцениваемая размерность? Можешь сделать кросс-валидацию на подвыборках разного размера?

kelijah November 20 2023, 04:17:09 UTC

О! Спасибо за вопрос. Я ступил, не подумал это проверить. А зависимость-то есть :)
Добавил диаграмму для одного жанра в пост.

imageman72 November 20 2023, 08:52:29 UTC

снова я, в режиме педанта: в графике подпись "длина" что имеется в виду? Предполагаю что не длина исходного текста (эмбеддинг у ruberta фиксированный). Предполагаю что это число рассказов, на которых вычислялось scikit-dimension.

Можешь пояснить это место?

Ну и раз у нас есть такая зависимость, то может стоит как-то уравнять жанры?

kelijah November 20 2023, 09:12:58 UTC

1) length это длина текста в символах, сделал так для быстроты визуализации.

2) intrinsic dimension у меня получается так. Прогоняем текст через роберту, получаем эмбеддинги для токенов (на последнем слое). Считаем эти эмбеддинги координатами точек в 1024-мерном пространстве. Закидываем список точек в skdim, получается размерность.

3) Да, как-то нормализовать на длину надо. Думаю, как.