1) Улучшена предварительная фильтрация мусора в диалогах с имиджборд. Файл с диалогами (plain text utf-8) с этими диалогами выложен в виде архива, разбитого на тома по 20 Мб в репе
https://github.com/Koziev/NLP_Datasets:
[
часть_1] [
часть_2] [
часть_3] [
часть_4] [
часть_5] [
часть_6]
2) Все реплики в этих диалогах размечены оценками релевантности и специфичности с помощью модели
tinkoff-ai/response-quality-classifier-base с помощью
вот этого нехитрого кода. Сформирован файл в формате jsonl, далее он заархивирован с разбивкой на тома:
[
часть_1] [
часть_2] [
часть_3] [
часть_4] [
часть_5] [
часть_6] [
часть_7] [
часть_8] [
часть_9] [
часть_10] [
часть_11] [
часть_12]
Пример диалога с максимальным произведением средней оценки релевантности и специфичности всех реплик:
№ реплики
Реплика
Релевантность
Специфичность
1
- Но егошек же хватает людям на день? Там же емкость еще меньше.
2
- Егошки и не требуют таких мощностей
0.971
0.988
3
- Каких таких? Егошки дают 14вт. На столки же курятся всякие кайфуны.
0.963
0.984
Не знаю, о чем тут идет речь, выглядит как обсуждение сепулек и сепуления.
Вот еще примеры лучших диалогов длины 3:
№ реплики
Реплика
Релевантность
Специфичность
1
- Годный тред, но вот что фейкота не думаю, такие вины очень редки.
2
- ага, слишком годный, штобы было правдой
0.946
0.974
3
- В любом случае пока нет доказательства фейкоты - тред годный. Ноу дискасс.
0.964
0.983
№ реплики
Реплика
Релевантность
Специфичность
1
- Причина крущения определена: недостаточно крестиков на борту.
2
- Каков минимум крестиков для удачного полета?
0.951
0.980
3
- Нужна икона святого Андрея. Покровителя всех небесных летунов
0.945
0.975
№ реплики
Реплика
Релевантность
Специфичность
1
- Выглядеть немного глуповато, а драма слегка притянута за уши.
2
- По моему,фильм все таки хороший
0.959
0.974
3
- Может и хороший, но лично для меня он на довольно среднем уровне.
0.953
0.962
№ реплики
Реплика
Релевантность
Специфичность
1
- СССР то меньше США просуществовал.
2
- Так и американцы до совка не особо с континента высовывались.
0.944
0.977
3
- На Японию амеры тащемто нехило так пёрли до Совка.
0.942
0.976
А вот "лучшие диалоги" длиной 4 реплики:
№ реплики
Реплика
Релевантность
Специфичность
1
- Ты про логи забыл или ты моча?
2
- что толку с логи если мы новые фейки создадим
0.957
0.984
3
- Так могут и способ пофиксить а что тогда?
0.940
0.965
4
- не быстро пофиксят, это уже механика контача
0.910
0.946
№ реплики
Реплика
Релевантность
Специфичность
1
- Владимир Путин и Царь - это одна и тоже?
2
- Рома букин и Рома Абрамович - это один и тот же жиголо?
0.888
0.946
3
- Гена Букин и Бекер Де Вит - один и тот же персонаж?
0.957
0.972
4
- Васил Траянов Баянов и Азис - это один и тот же шахматист?
0.958
0.976
№ реплики
Реплика
Релевантность
Специфичность
1
- Что будет если меня найдут?
2
- ну судя по тому, что данные уже переданы скоро узнаешь
0.910
0.951
3
- и какие у них будут доказательства?
0.948
0.956
4
- они скорее всего будут тебя просто проверять по убийствам
0.949
0.970
№ реплики
Реплика
Релевантность
Специфичность
1
- Да не покруче, просто гелик за 8 лямов жалко, а это говно нет.
2
- Гелик говно. Нигерские понты.
0.905
0.966
3
- Какие понты, его для армии создавали. Скажи ещё H1 ниггерские понты, петушок.
0.958
0.974
4
- их всех блять и гелик и уаз и хамви для армии сохдавали
0.920
0.949
№ реплики
Реплика
Релевантность
Специфичность
1
- ну ты и мудак
2
- Почему мудак сразу? Денег то не было, на диски кое как нашкрябывал с др.
0.924
0.946
3
- Диски по 50 рублей стоили же
0.944
0.971
4
- У меня диски по 30-35 рублей стоили.
0.939
0.944
PS Скорее всего, надо будет делать еще одну итерацию извлечения диалогов из сырья, чтобы вытащить начало тредов.