Библиотечка
https://www.sbert.net/docs/ содержит удобные инструменты как для получения эмбеддингов предложений (согласно доке, поддерживается 100 языков), так для некоторых базовых операций со списками предложений. Например, очень просто делается поиск ближайшего предложения для запроса. При этом используется косинусная метрика близости.
Уместный вопрос - насколько хорошо это работает "из коробки"?
Я сделал небольшой эксперимент с двумя моделями:
Model: distilbert-base-nli-stsb-mean-tokens
Query: кто приносит извинения
Top 5 most similar sentences in corpus:
---------------------------------------
ты не дождешься от меня извинений (Score: 0.8573)
простите меня (Score: 0.8381)
отпустите меня (Score: 0.8153)
Извините меня (Score: 0.8071)
Артур не будет извиняться (Score: 0.7937)
Model: roberta-large-nli-stsb-mean-tokens
Query: кто приносит извинения
Top 5 most similar sentences in corpus:
---------------------------------------
простите меня (Score: 0.8666)
ты не дождешься от меня извинений (Score: 0.8634)
Извините меня (Score: 0.8633)
отпустите меня (Score: 0.8556)
Артур извиняется (Score: 0.8533)
Кажется, что работает это с переменным успехом.