В порядке эксперимента обучаю упрощенную модель
BERT (урезал число heads и т.д.) на свое русском корпусе.
То, что обучается медленно - факт. Но дело не в этом. Вот как выглядят кривые loss (на обучающей выборке) и val_loss (на валидационной):
(
Read more... )
Comments 4
Reply
Reply
>ненужное для современного момента" что выпилил всю совместимость со старыми примерами всяких
>автоэенкодеров-декодеров :)
Хм. Вот это зря, конечно. Для русскоязычного NLP вообще проблема найти хоть какие-то датасеты. Бывает, что единственный шанс - руками сделать небольшой датасет и попытаться оттюнить предобученную на вики модель.
Reply
( ... )
Reply
Leave a comment