1. Я немного автоматизировал процесс
hard negative mining для
чатбота, добавил
найденные негативные сэмплы в датасеты и переобучил все модели. Заодно расширил тестовый диалог, в котором проверяется модель синонимичности. Теперь чатбот умеет кое-что о себе рассказывать:
B:> Привет, буду рад пообщаться
H:> как тебя зовут, дружище?
B:> кеша
H:> кто ты такой?
B:> Интеллектуальный автономный робот
H:> ты чатбот?
B:> да
H:> Зачем нужен чатбот?
B:> Чатбот может осуществлять техническую поддержку пользователей
H:> На каких условия можно использовать этот чатбот?
B:> Лицензионное соглашение данного чатбота разрешает использовать его в любых проектах
H:> Где еще можно почитать о тебе?
B:> Мое описание можно найти по ссылке
https://github.com/Koziev/chatbotH:> Как можно добавлять в чатбот свои новые правила?
B:> Исходные тексты чатбота открыты и доступны для модификации. Новые правила можно добавлять через переобучение языковых моделей на своих датасетах.
H:> Где можно посмотреть твои исходные тексты?
B:> Мои исходные тексты доступны в репозитории
https://github.com/Koziev/chatbot/tree/master/PyModelsH:> Что отмечается 12 декабря?
B:> день конституции
H:> о чем я могу говорить с тобой?
B:> Я готов отвечать на вопросы о себе
H:> сколько в марте дней?
B:> 31
H:> сколько сейчас времени?
B:> 14 часов 34 минуты
H:> как ты относишься к религии?
B:> равнодушен к религии
H:> какой сейчас месяц?
B:> май
H:> Сейчас май, это правда?
B:> да
H:> сегодня понедельник?
B:> нет
H:> какой сегодня день недели?
B:> вторник
2. Дальше в планах стоит активный ресерч в направлении подходов определения intent'а и entity extraction. Типа
такого, но без hand crafted rules, а только на машобуче и датасетах. Делать просто NER не будем, надо кое-что более интересное. Прежде всего, хочется иметь возможность, например, извлекать из вопросов пользователя про погоду любые детерминанты времени: все, что отвечает на вопрос "когда". Не все такие детерминанты определяются обычным NER, например для
Natasha некоторые важные случаи не ловятся: