Текучка - детектирование перефразировок, определение полярности: kelijah

kelijah

Текучка - детектирование перефразировок, определение полярности

Nov 11, 2016 11:19

1. Перефразировки.

Полгода я долбил задачу, перебрал кучу архитектур, и вот наконец-то появились первые обнадеживающие подвижки. Задача формулируется просто. Есть пара предложений, надо определить - говорится ли в них об одном и том же, или нет. К примеру, тут говорится одно и то же:

и ты прекрасно это знаешь

тебе это прекрасно известно

тебе это прекрасно известно

и ты прекрасно это знаешь

этим люди отличаются от животных

это отличает людей от животных

этим люди отличаются от животных

в этом заключается отличие людей от животных

это отличает людей от животных

этим люди отличаются от животных

непрерывное падение цен на комплектующие

цены на комплектующие непрерывно падают

и результат оказался просто ошеломительный

и результат просто ошеломил

На днях неожиданно победил Тра заработала новая сеточная модель с 4мя полносвязными слоями. Как показал эксперимент, ключевую роль сыграл выбор RMSProp в качестве оптимизатора. И количество слоев тоже важно. Меньше или больше - точность падает. В общем, делали опишу потом отдельно, сейчас просто график с кривой обучения, по OY - точность определения перефразировки (точнее, F1):

2. Полярность предложений в отзывах.

Тоже было много заходов на задачу, но теперь есть живая модель. В целом, стандартная проблема, с тем нюансом, что отзывы русскоязычные (полярность помечена символом в конце):

С отрицательной стороны - это отвратительный сервис и разруха кругом.   -
Замечательные плетеные домики и необыкновенно вкусное мясо по-абхазски.   +
- отвратительная работа обслуживающего персонала номеров;   -
Там нормальная детская площадка -можно беспрепятственно поиграть.   +
Весь персонал гостиницы очень приветливый.   +
Советую всем посетить этот уютный отель!   +
Номер сразу очень понравился.   +
Кормят очень хорошо, еда вкусная, выбор не очень богатый ,но не для гурманов есть всё что надо.   +
1.3 однообразное меню. из-за качества некоторых блюд меню еще сужается.   -
Номера чистые.   +
Хорошее питание, выбор большой, на любой вкус.   +
На мосту много сувенирных магазинчиков и ювелирные лавочки.   0
По сути он представляет из себя скрепленные между собой пустотелые кубического вида емкости.   0
Из больших встречались реже наполеоны, тунцы, манта, скаты, мурены.   0
Более маленькие корзинки можно забрать в ручную кладь.   0
Предложений в датасете сейчас около 1.7 млн, хотя с ощутимым количеством ошибок в классификации. Как бы то ни было, сетка с 4-5 слоями достигает почти 90% точности, и это достаточно хорошо:

3. Появилась задумка "сеточного стеммера" для уменьшения энтропии текста. Научимся сводить слова к "базовым" корням, устраняя приставки, суффиксы и окончания.

текущие планы, deep learning, перефразировки, sentiment