Результаты моих расчетов показывают, что между человеческими и сгенерированных стихами есть значимая разница для "
фрактальной размерности" их эмбеддингов.
Пояснения - в статье
Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts.
Вот гистограммы для ~1000 пар стихов:
Говоря простым языком, человеческие стихи более затейливы в пространстве своих эмбеддингов.
Средние значения:
mean(human)=10.29936286137034
mean(model)=7.507765641487491
Интересный результат :)
PS: boxplot для этого же эксперимента: