2,000,000 слов из моего поэтического корпуса прошли токенизацию штатным токенизатором rugpt. Получилось, что в среднем одно слово, за исключением знаков пунктуации, дает 1.839 токенов.
Если этот же набор слов обработать токенизатором силлабо-тонической GPT из генератора стихов, который обычно бьет слова на слоги, то получается, что в среднем одно
(
Read more... )