Нужна помощь зала

Dec 23, 2020 12:27

Дорогие друзья датасаентисты, укротители искусственных интеллектов, лингвисты-информатики и проч.(или если знаете такого - спросите у него пож-та).

Вот допустим я, навосхищавшись IBM Watson года с 2011, хочу шагнуть за край текущего прогресса и задавать вопросы на естественном языке о массиве русского текста в 500кБ (ну, для начала 50). Что бы можно было тут применить?

Попробовал дотренировывать ruGPT-3, но ей что-то эти пробные 50кБ как слону дробина, никакого видимого влияния не оказывают. Да и кажется генераторы, они не для этого - попробовал обучить генератор с нуля, да, он продолжает вход кусками из учебных текстов, но это довольно далеко от "отвечать на вопросы", даже поиск по ключевикам даст лучший результат.

Так вот - что бы применить здесь? Говорят, именно для ответов на вопросы нужен BERT: https://towardsdatascience.com/bert-nlp-how-to-build-a-question-answering-bot-98b1d1594d7b

Но у меня чот сомнения, что учёба на "ответах к коротким отрывкам текстов" даст внятный результат на "ответах к 500кБ". Да и где русский массив размеченный для этого взять...
Previous post Next post
Up