1. Перефразировки.
Полгода я долбил задачу, перебрал кучу архитектур, и вот наконец-то появились первые обнадеживающие подвижки. Задача формулируется просто. Есть пара предложений, надо определить - говорится ли в них об одном и том же, или нет. К примеру, тут говорится одно и то же:
и ты прекрасно это знаешь
тебе это прекрасно известно
тебе это прекрасно известно
и ты прекрасно это знаешь
этим люди отличаются от животных
это отличает людей от животных
этим люди отличаются от животных
в этом заключается отличие людей от животных
это отличает людей от животных
этим люди отличаются от животных
непрерывное падение цен на комплектующие
цены на комплектующие непрерывно падают
и результат оказался просто ошеломительный
и результат просто ошеломил
На днях неожиданно победил Тра заработала новая сеточная модель с 4мя полносвязными слоями. Как показал эксперимент, ключевую роль сыграл выбор RMSProp в качестве оптимизатора. И количество слоев тоже важно. Меньше или больше - точность падает. В общем, делали опишу потом отдельно, сейчас просто график с кривой обучения, по OY - точность определения перефразировки (точнее,
F1):
2. Полярность предложений в отзывах.
Тоже было много заходов на задачу, но теперь есть живая модель. В целом,
стандартная проблема, с тем нюансом, что отзывы русскоязычные (полярность помечена символом в конце):
С отрицательной стороны - это отвратительный сервис и разруха кругом. -
Замечательные плетеные домики и необыкновенно вкусное мясо по-абхазски. +
- отвратительная работа обслуживающего персонала номеров; -
Там нормальная детская площадка -можно беспрепятственно поиграть. +
Весь персонал гостиницы очень приветливый. +
Советую всем посетить этот уютный отель! +
Номер сразу очень понравился. +
Кормят очень хорошо, еда вкусная, выбор не очень богатый ,но не для гурманов есть всё что надо. +
1.3 однообразное меню. из-за качества некоторых блюд меню еще сужается. -
Номера чистые. +
Хорошее питание, выбор большой, на любой вкус. +
На мосту много сувенирных магазинчиков и ювелирные лавочки. 0
По сути он представляет из себя скрепленные между собой пустотелые кубического вида емкости. 0
Из больших встречались реже наполеоны, тунцы, манта, скаты, мурены. 0
Более маленькие корзинки можно забрать в ручную кладь. 0
Предложений в датасете сейчас около 1.7 млн, хотя с ощутимым количеством ошибок в классификации. Как бы то ни было, сетка с 4-5 слоями достигает почти 90% точности, и это достаточно хорошо:
3. Появилась задумка "сеточного стеммера" для уменьшения энтропии текста. Научимся сводить слова к "базовым" корням, устраняя приставки, суффиксы и окончания.